Kaip užblokuoti prieigą prie SeekportBot ar kitų crawSpustelėjau svetainę

Dažniausiai, kai reikia užblokuoti prieigą SeekportBot ar kiti crawl bots naudojant svetainę, priežastys paprastos. Žiniatinklio voras per trumpą laiką daro per daug prieigų ir prašo žiniatinklio serverio išteklių arba jis ateina iš paieškos sistemos, kurioje nenorite, kad jūsų svetainė būtų indeksuojama.

Tai labai naudinga svetainei, kurioje lankosi crawatsitrenkiau į jį. Šie žiniatinklio vorai yra skirti tyrinėti, apdoroti ir indeksuoti tinklalapių turinį paieškos sistemose. Google ir Bing naudoja tokius crawatsitrenkiau į jį. Tačiau yra ir paieškos sistemų, kurios naudoja robotus duomenims iš tinklalapių rinkti. Seekport yra viena iš šių paieškos sistemų, kuri naudoja crawSeekportBot ler tinklalapiams indeksuoti. Deja, kartais ji per daug naudojasi ir sukuria nereikalingą srautą.

Kas yra SeekportBot?

SeekportBot yra web crawler sukūrė įmonė Seekport, kuris yra Vokietijoje (tačiau naudoja kelių šalių IP adresus, įskaitant Suomiją). Šis robotas naudojamas svetainėms tikrinti ir indeksuoti, kad jos būtų rodomos paieškos sistemos rezultatuose. Seekport. Neveikianti paieškos sistema, kiek suprantu. Bent jau man tai nedavė jokių rezultatų jokiai pagrindinei frazei.

SeekportBot Naudoti user agent:

"Mozilla/5.0 (compatible; SeekportBot; +https://bot.seekport.com)"

Kaip užblokuoti prieigą prie SeekportBot ar kitų crawSpustelėjau svetainę

Jei padarėte išvadą, kad šis žiniatinklio voras ar kitas, nebūtina nuskaityti visos jūsų svetainės ir generuoti nereikalingą srautą į žiniatinklio serverį, turite keletą būdų, kuriais galite blokuoti jų prieigą.

Užkarda žiniatinklio serverio lygiu

Tai ugniasienės programos open-source kurias galima įdiegti operacinėse sistemose Linux ir gali būti sukonfigūruotas blokuoti srautą pagal kelis kriterijus. IP adresas, vieta, prievadai, protokolai arba vartotojo agentas.

APF (Advanced Policy Firewall) yra tokia programinė įranga, per kurią galite blokuoti nepageidaujamus robotus serverio lygiu.

Kadangi „SeekportBot“ ir kiti žiniatinklio vorai naudoja kelis IP blokus, efektyviausia blokavimo taisyklė pagrįsta „user agent“. Taigi, jei norite užblokuoti prieigą SeekportBot pasinaudojant APF, tereikia prisijungti prie žiniatinklio serverio per SSHir pridėkite filtro taisyklę konfigūracijos faile.

1. Atidarykite konfigūracijos failą naudodami nano (ar kitam leidėjui).

sudo nano /etc/apf/conf.apf

2. Ieškokite eilutės, kuri prasideda „IG_TCP_CPORTS“ ir šios eilutės pabaigoje pridėkite vartotojo agentą, kurį norite blokuoti, o po jo – kablelį. Pavyzdžiui, jei norite užblokuoti user agent "SeekportBot", eilutė turėtų atrodyti taip:

IG_TCP_CPORTS="80,443,22" && IG_TCP_CPORTS="$IG_TCP_CPORTS,SeekportBot"

3. Išsaugokite failą ir iš naujo paleiskite APF paslaugą.

sudo systemctl restart apf.service

„SeekportBot“ prieiga bus užblokuota.

Filtras web crawls naudodamiesi „Cloudflare“ - blokuokite „SeekportBot“ prieigą

Cloudflare pagalba man atrodo saugiausias ir patogiausias būdas įvairiais būdais apriboti kai kurių botų prieigą prie svetainės. Metodas, kurį taip pat naudojau byloje SeekportBot filtruoti srautą į internetinę parduotuvę.

Darant prielaidą, kad svetainė jau pridėta prie „Cloudflare“ ir DNS paslaugos yra suaktyvintos (ty srautas į svetainę eina per „Cloudflare“, atlikite toliau nurodytus veiksmus:

1. Atidarykite Clouflare paskyrą ir eikite į svetainę, kurios prieigą norite apriboti.

2. Eikite į: Security → WAF ir pridėkite naują taisyklę. Create rule.

3. Pasirinkite naujos taisyklės pavadinimą, Field: User Agent - Operator: Contains - Value: SeekportBot (arba kitas boto pavadinimas) – Choose action: Block - Deploy.

Kaip užblokuoti „SeekportBot“ prieigą
Blokuokite prieigą prie SeekportBot iš Cloudflare

Vos per kelias sekundes – nauja taisyklė WAF (Web Application Firewall) jis pradeda veikti.

Ugniasienės įvykiai „Cloudflare“.
Ugniasienės įvykiai „Cloudflare“.

Teoriškai galima nustatyti dažnumą, kuriuo žiniatinklio voras pasiekia svetainę robots.txt, bet... tai tik teoriškai.

User-agent: SeekportBot
Crawl-delay: 4

Daug web crawlerii (išskyrus Bing ir Google) nesilaiko šių taisyklių.

Apibendrinant, jei nustatote žiniatinklio crawKas per daug lankosi jūsų svetainėje, geriausia visiškai užblokuoti jo prieigą. Žinoma, jei šis robotas nėra iš paieškos variklio, kuriame norėtumėte būti.

Technologijų entuziastas, nuo 2006 metų su malonumu rašau „StealthSettings.com“. Turiu išsamią patirtį su operacinėmis sistemomis: macOS, „Windows“ ir „Linux“, taip pat programavimo kalbomis ir blogo platformomis („WordPress“) bei internetinės parduotuvės platformomis („WooCommerce“, „Magento“, „PrestaShop“).

kaip » grynasis Banglentės » Kaip užblokuoti prieigą prie SeekportBot ar kitų crawSpustelėjau svetainę
Palikite komentarą