Semalt: Kā bloķēt Darodar Robots.txt

Robots.txt fails ir tipisks teksta fails, kurā ir norādījumi par to, kā tīmekļa rāpuļprogrammām vai robotprogrammatūrām jāpārmeklē vietne. To piemērošana ir acīmredzama meklētājprogrammu robotprogrammatūrās, kas ir izplatītas daudzās optimizētās vietnēs. Robotu izslēgšanas protokola (REP) ietvaros fails robots.txt ir būtisks vietnes satura indeksēšanas aspekts, kā arī ļauj serverim attiecīgi autentificēt lietotāju pieprasījumus.
Jūlija Vašņeva, Semalt vecākā klientu veiksmes vadītāja, skaidro, ka sasaiste ir meklētājprogrammu optimizācijas (SEO) aspekts, kas ietver trafika iegūšanu no citiem jūsu nišas domēniem. Lai "sekotu" saitēm saišu sulas pārsūtīšanai, jūsu vietnes mitināšanas telpā ir svarīgi iekļaut failu robots.txt, lai tas darbotos kā instruktors tam, kā serveris mijiedarbojas ar jūsu vietni. No šī arhīva ir atrodami norādījumi, atļaujot vai neatļaujot noteiktu lietotāju aģentu izturēšanos.
Robots.txt faila pamata formāts
Robots.txt failā ir divas būtiskas līnijas:
Lietotāja aģents: [lietotāja aģenta nosaukums]
Neatļaut: [URL virkne nav jāpārmeklē]
Pilnā robots.txt failā jāietver šīs divas līnijas. Tomēr daži no tiem var saturēt vairākas lietotāju aģentu un direktīvu līnijas. Šīs komandas var ietvert tādus aspektus kā atļaušana, atspēkošana vai pārmeklēšanas kavēšanās. Parasti ir līnijas pārtraukums, kas atdala katru instrukciju komplektu. Katru no atļaušanas vai aizliegšanas norādījumiem atdala šis rindas pārtraukums, it īpaši robots.txt ar vairākām rindām.

Piemēri
Piemēram, failā robots.txt var būt šādi kodi:
Lietotāja aģents: darodar
Neatļaut: / spraudnis
Neatļaut: / API
Neatļaut: / _komentāri
Šajā gadījumā tas ir bloķēts fails robots.txt, kas ierobežo Darodar tīmekļa rāpuļprogrammu piekļuvei jūsu vietnei. Iepriekš minētajā sintaksē kods bloķē vietnes aspektus, piemēram, spraudņus, API un komentāru sadaļu. Pēc šīm zināšanām ir iespējams gūt daudz ieguvumu no robota teksta faila efektīvas izpildīšanas. Robots.txt faili var būt spējīgi veikt daudzas funkcijas. Piemēram, viņi var būt gatavi:
1. Vietnes lapā atļaujiet visu tīmekļa rāpuļprogrammu saturu. Piemēram;
Lietotāja aģents: *
Neatļaut:
Šajā gadījumā visam lietotāja saturam var piekļūt jebkurš tīmekļa rāpuļprogramma, kurai tiek lūgts nokļūt vietnē.
2. Bloķējiet noteiktu tīmekļa saturu no noteiktas mapes. Piemēram;
Lietotāja aģents: Googlebot
Neatļaut: / piemērs-apakšmape /
Šī sintakse, kurā ir lietotāja aģenta vārds Googlebot, pieder uzņēmumam Google. Tas ierobežo robotprogrammatūras piekļuvi jebkurai Web lapai virknē www.ourexample.com/example-subfolder/.
3. Bloķējiet noteiktu tīmekļa rāpuļprogrammu no noteiktas tīmekļa lapas. Piemēram;
Lietotāja aģents: Bingbot
Neatļaut: / piemērs- apakšmape / bloķēta lapa.html
Lietotāja aģents Bing robotprogrammatūra pieder Bing tīmekļa rāpuļprogrammām. Šāda veida robots.txt fails ierobežo Bing tīmekļa rāpuļprogrammu piekļuvei noteiktai lapai ar virkni www.ourexample.com/piemers-mapauglis/bloķēta lapa.
Svarīga informācija
- Ne katrs lietotājs izmanto jūsu failu robts.txt. Daži lietotāji var nolemt to ignorēt. Lielākajā daļā šādu tīmekļa rāpuļprogrammu ir Trojas zirgi un ļaunprātīga programmatūra.
- Lai fails Robots.txt būtu redzams, tam jābūt pieejamam augstākā līmeņa vietņu direktorijā.
- Rakstzīmes "robots.txt" ir reģistrjutīgas. Tā rezultātā jums nevajadzētu tos nekādā veidā mainīt, ieskaitot dažu aspektu lielo burtu lietojumu.
- "/Robots.txt" ir publiski pieejams. Ikviens var atrast šo informāciju, pievienojot to jebkura URL saturam. Jums nevajadzētu indeksēt būtisku informāciju vai lapas, kuras vēlaties, lai tās paliktu privātas.