Kako blokirati pristup SeekportBotu ili drugom crawKliknuo sam na web stranicu

Većinu vremena, kada trebate blokirati pristup SeekportBot ili drugi crawl bots s web-stranicom, razlozi su jednostavni. Web pauk čini previše pristupa u kratkom vremenskom razdoblju i traži resurse web poslužitelja ili dolazi s tražilice u kojoj ne želite da vaša web stranica bude indeksirana.

Vrlo je korisno za web stranicu koju posjećuje crawNaletio sam na njega. Ovi web pauci dizajnirani su za istraživanje, obradu i indeksiranje sadržaja web stranica u tražilicama. Google i Bing koriste takve crawNaletio sam na njega. Međutim, postoje i tražilice koje koriste robote za prikupljanje podataka s web stranica. Seekport jedna je od tih tražilica koja koristi crawSeekportBot ler za indeksiranje web stranica. Nažalost, ponekad ga pretjerano koristi i stvara nepotreban promet.

Što je SeekportBot?

SeekportBot je web crawler razvila tvrtka Seekport, sa sjedištem u Njemačkoj (ali koristi IP adrese iz nekoliko zemalja, uključujući Finsku). Ovaj se bot koristi za pretraživanje i indeksiranje web stranica kako bi se mogle prikazati u rezultatima tražilice. Seekport. Nefunkcionalna tražilica, koliko ja mogu zaključiti. Barem mi nije vratio rezultate ni za jednu ključnu frazu.

SeekportBot Koristiti user agent:

"Mozilla/5.0 (compatible; SeekportBot; +https://bot.seekport.com)"

Kako blokirati pristup SeekportBotu ili drugom crawKliknuo sam na web stranicu

Ako ste došli do zaključka da ovaj web pauk ili neki drugi, nije potrebno skenirati cijelu vašu web stranicu i praviti nepotreban promet na web poslužitelju, imate nekoliko metoda kojima možete blokirati njihov pristup.

Vatrozid na razini web poslužitelja

To su vatrozidne aplikacije open-source koji se mogu instalirati na operacijske sustave Linux i može se konfigurirati za blokiranje prometa na temelju nekoliko kriterija. IP adresa, lokacija, portovi, protokoli ili korisnički agent.

APF (Advanced Policy Firewall) je takav softver putem kojeg možete blokirati neželjene robote, na razini poslužitelja.

Budući da SeekportBot i drugi web pauci koriste više blokova IP adresa, najučinkovitije pravilo blokiranja temelji se na "user agent". Dakle, ako želite blokirati pristup SeekportBot putem APF, sve što trebate učiniti je spojiti se na web poslužitelj putem SSH, i dodajte pravilo filtra u konfiguracijsku datoteku.

1. Otvorite konfiguracijsku datoteku s nano (ili drugog izdavača).

sudo nano /etc/apf/conf.apf

2. Potražite redak koji počinje s "IG_TCP_CPORTS” i dodajte korisničkog agenta kojeg želite blokirati na kraju ovog retka, nakon čega slijedi zarez. Na primjer, ako želite blokirati user agent "SeekportBot", linija bi trebala izgledati ovako:

IG_TCP_CPORTS="80,443,22" && IG_TCP_CPORTS="$IG_TCP_CPORTS,SeekportBot"

3. Spremite datoteku i ponovno pokrenite APF uslugu.

sudo systemctl restart apf.service

Pristup "SeekportBot" bit će blokiran.

filtar web crawls uz pomoć Cloudflarea – Blokiraj pristup SeekportBotu

Uz pomoć Cloudflarea čini mi se najsigurnija i najpraktičnija metoda kojom nekim botovima možete ograničiti pristup web stranici na razne načine. Metoda koju sam također koristio u slučaju SeekportBot za filtriranje prometa na internetskoj trgovini.

Pod pretpostavkom da ste već dodali web mjesto u Cloudflare i da su DNS usluge aktivirane (tj. promet prema web mjestu ide kroz Cloudflare), slijedite korake u nastavku:

1. Otvorite svoj Clouflare račun i idite na web stranicu kojoj želite ograničiti pristup.

2. Idi na: Security → WAF i dodajte novo pravilo. Create rule.

3. Odaberite naziv za novo pravilo, Field: User Agent - Operator: Contains - Value: SeekportBot (ili drugo ime bota) – Choose action: Block - Deploy.

Kako blokirati pristup SeekportBotu
Blokirajte pristup SeekportBotu iz Cloudflarea

Za samo nekoliko sekundi, novo pravilo WAF (Web Application Firewall) počinje djelovati.

Događaji vatrozida u Cloudflareu
Događaji vatrozida u Cloudflareu

U teoriji se može postaviti učestalost kojom web pauk pristupa stranici robots.txt, ali... to je samo u teoriji.

User-agent: SeekportBot
Crawl-delay: 4

Mnogi web crawlerii (osim Binga i Googlea) ne slijede ova pravila.

Zaključno, ako identificirate web crawl tko pretjerano pristupa vašoj stranici, najbolje mu je potpuno blokirati pristup. Naravno, ako ovaj bot nije s tražilice u kojoj ste zainteresirani biti prisutni.

Strastveni zaljubljenik u tehnologiju, s veseljem pišem na StealthSettings.com od 2006. godine. Imam bogato iskustvo s operativnim sustavima: macOS, Windows i Linux, kao i s programskim jezicima i platformama za bloganje (WordPress) i za internetske trgovine (WooCommerce, Magento, PrestaShop).

kako » neto surfanje » Kako blokirati pristup SeekportBotu ili drugom crawKliknuo sam na web stranicu
Ostavite komentar