Kako pravilno nastaviti Robots.txt?

Kazalo:

Kako pravilno nastaviti Robots.txt?
Kako pravilno nastaviti Robots.txt?
Anonim

Pravilni txt Robots za spletno mesto html ustvari modele dejanj za bote iskalnikov in jim pove, kaj lahko preverijo. Ta datoteka se pogosto imenuje protokol za izključitev robotov. Prva stvar, ki jo boti poiščejo, preden poiščejo spletno mesto, je robots.txt. Lahko pokaže ali pove zemljevidu spletnega mesta, naj ne preverja določenih poddomen. Če želite, da iskalniki iščejo tisto, kar se najpogosteje najde, potem robots.txt ni potreben. Pri tem procesu je zelo pomembno, da je datoteka pravilno oblikovana in da ne indeksira uporabniške strani z osebnimi podatki uporabnika.

Načelo robotskega skeniranja

Načelo robotskega skeniranja
Načelo robotskega skeniranja

Ko iskalnik naleti na datoteko in vidi prepovedan URL, je ne preišče, lahko pa jo indeksira. To je zato, ker tudi če roboti nimajo dovoljenja za ogled vsebine, si lahko zapomnijo povratne povezave, ki kažejo na prepovedan URL. Zaradi blokiranega dostopa do povezave bo URL prikazan v iskalnikih, vendar brez fragmentov. Čeza vhodno marketinško strategijo je potreben pravilen txt Robots za bitrix (Bitrix), zagotavljajo preverjanje spletnega mesta na zahtevo uporabnika s skenerji.

Po drugi strani, če datoteka ni pravilno formatirana, lahko to povzroči, da se spletno mesto ne prikaže v rezultatih iskanja in ne najde. Iskalniki te datoteke ne morejo zaobiti. Programer si lahko ogleda robots.txt katerega koli mesta tako, da obišče njegovo domeno in ji sledi z robots.txt, na primer www.domain.com/robots.txt. Z orodjem, kot je Unamo razdelek za optimizacijo SEO, kjer lahko vnesete katero koli domeno, storitev pa bo prikazala informacije o obstoju datoteke.

Omejitve za skeniranje:

  1. Uporabnik ima zastarelo ali občutljivo vsebino.
  2. Slike na spletnem mestu ne bodo vključene v rezultate iskanja slik.
  3. Stran še ni pripravljena za demo, ki bi jo robot indeksiral.

Upoštevajte, da so informacije, ki jih uporabnik želi prejeti od iskalnika, na voljo vsem, ki vnesejo URL. Ne uporabljajte te besedilne datoteke za skrivanje občutljivih podatkov. Če ima domena napako 404 (ni najdeno) ali 410 (uspešno), iskalnik preveri spletno mesto kljub prisotnosti robots.txt in v tem primeru meni, da datoteka manjka. Druge napake, kot so 500 (notranja napaka strežnika), 403 (prepovedano), potekla časovna omejitev ali »ni na voljo«, upoštevajo navodila robots.txt, vendar se lahko obhod odloži, dokler datoteka ni na voljo.

Ustvarjanje iskalne datoteke

Ustvarjanje iskalne datoteke
Ustvarjanje iskalne datoteke

VelikoProgrami CMS, kot je WordPress, že imajo datoteko robots.txt. Preden pravilno konfigurira robote txt WordPress, se mora uporabnik seznaniti z njegovimi zmogljivostmi, da bi ugotovil, kako do njega dostopati. Če programer sam ustvari datoteko, mora izpolnjevati naslednje pogoje:

  1. Mora biti z malimi črkami.
  2. Uporabi kodiranje UTF-8.
  3. Shrani v urejevalnik besedil kot datoteko (.txt).

Ko uporabnik ne ve, kam bi ga postavil, se obrne na prodajalca programske opreme za spletni strežnik, da bi izvedel, kako dostopati do korena domene, ali pa gre na Googlovo konzolo in jo prenesti. S to funkcijo lahko Google tudi preveri, ali bot deluje pravilno in seznam spletnih mest, ki so bila blokirana z uporabo datoteke.

Glavni format pravilnega txt robota za bitrix (Bitrix):

  1. Legend robots.txt.
  2. , dodaja komentarje, ki se uporabljajo samo kot opombe.
  3. Te komentarje bodo skenerji prezrli skupaj z morebitnimi uporabniškimi tipkarskimi napakami.
  4. User-agent - označuje, v katerem iskalniku so navedena navodila za datoteko.
  5. Dodajanje zvezdice () pove skenerjem, da so navodila za vsakogar.

Navedba določenega bota, na primer Googlebot, Baiduspider, Applebot. Disallow pove pajkom, po katerih delih spletnega mesta ne bi smeli pajkati. Izgleda takole: Uporabniški agent:. Zvezdica pomeni "vsi boti". Lahko pa določite strani za posebneboti. Če želite to narediti, morate vedeti ime bota, za katerega so nastavljena priporočila.

Pravilni txt robotov za Yandex bi lahko izgledal takole:

Pravilni robotski txt za Yandex
Pravilni robotski txt za Yandex

Če bot ne bi smel pajkati po spletnem mestu, ga lahko določite, za iskanje imen uporabniških agentov pa priporočamo, da se seznanite s spletnimi zmožnostmi useragentstring.com.

Optimizacija strani

Optimizacija strani
Optimizacija strani

Naslednji dve vrstici veljata za popolno datoteko robots.txt, ena datoteka robots pa lahko vsebuje več vrstic uporabniških agentov in direktiv, ki onemogočijo ali omogočijo pajkanje. Glavna oblika pravilnega txt robota:

  1. Uporabniški agent: [uporabniško ime agenta].
  2. Disallow: [niz URL-ja, ki ni preiskan].

V datoteki je vsak blok direktiv prikazan kot ločen, ločen z vrstico. V datoteki poleg uporabniškega imenika agenta se vsako pravilo uporabi za določen nabor vrstic, ločenih od odsekov. Če ima datoteka pravilo za več agentov, bo robot upošteval samo najbolj specifično skupino navodil.

Tehnična sintaksa

Tehnična sintaksa
Tehnična sintaksa

Lahko ga razumemo kot "jezik" datotek robots.txt. V tej obliki lahko obstaja pet izrazov, med katerimi so glavni:

  1. User-agent – spletni pajek z navodili za pajkanje, običajno iskalnik.
  2. Disallow je ukaz, ki se uporablja za sporočanje uporabniškemu agentu, da obide(opustitev) določenega URL-ja. Za vsakega je samo en prepovedan pogoj.
  3. Dovoli. Za Googlebot, ki dobi dostop, je celo uporabniška stran zavrnjena.
  4. Crawl-delay - določa, koliko sekund bo pajek potreboval pred pajkom. Ko bot tega ne potrdi, se hitrost nastavi v Googlovi konzoli.
  5. Sitemap - Uporablja se za iskanje vseh zemljevidov XML, povezanih z URL-jem.

Ujemanja vzorcev

Ko gre za dejansko blokiranje URL-jev ali dovolitev veljavnega txt-ja robotov, so lahko operacije precej zapletene, saj vam omogočajo uporabo ujemanja vzorcev za pokrivanje številnih možnih parametrov URL-jev. Google in Bing uporabljata dva znaka, ki označujeta strani ali podmape, ki jih želi SEO izključiti. Dva znaka sta zvezdica () in znak za dolar ($), kjer je:nadomestni znak, ki predstavlja poljubno zaporedje znakov. $ - se ujema s koncem URL-ja.

Google ponuja velik seznam možnih sintaks predlog, ki uporabniku razlagajo, kako pravilno nastaviti datoteko txt Robots. Nekateri pogosti primeri uporabe vključujejo:

  1. Preprečite prikazovanje podvojene vsebine v rezultatih iskanja.
  2. Vsi razdelki spletnega mesta naj bodo zasebni.
  3. Shrani notranje strani rezultatov iskanja na podlagi odprte izjave.
  4. Navedite lokacijo.
  5. Prepreči iskalnikom indeksiranje določenihdatoteke.
  6. Določanje zamude pri pajkanju za prenehanje ponovnega nalaganja pri skeniranju več področij vsebine hkrati.

Preverjanje prisotnosti datoteke robota

Če na spletnem mestu ni področij, ki bi jih bilo treba preiskati, potem robots.txt sploh ni potreben. Če uporabnik ni prepričan, da ta datoteka obstaja, mora vnesti korensko domeno in jo vnesti na konec URL-ja, nekako takole: moz.com/robots.txt. Številni iskalni boti te datoteke prezrejo. Vendar pa ti pajki praviloma ne spadajo med ugledne iskalnike. So vrste pošiljateljev neželene pošte, zbiralcev pošte in drugih vrst avtomatiziranih botov, ki jih je na internetu v izobilju.

Zelo pomembno je vedeti, da uporaba standarda za izključitev robotov ni učinkovit varnostni ukrep. Pravzaprav se lahko nekateri roboti začnejo s stranmi, kjer jih uporabnik nastavi v način skeniranja. V standardno datoteko izjem je več delov. Preden robotu poveste, na katerih straneh ne sme delovati, morate določiti, s katerim robotom naj govori. V večini primerov bo uporabnik uporabil preprosto izjavo, ki pomeni "vsi boti".

SEO optimizacija

SEO optimizacija
SEO optimizacija

Pred optimizacijo se mora uporabnik prepričati, da ne blokira vsebine ali delov spletnega mesta, ki jih je treba zaobiti. Povezave do strani, ki jih je blokiral pravilen robots txt, ne bodo upoštevane. To pomeni:

  1. Če niso povezane z drugimi stranmi, ki so na voljo iskalnikom, tj. strani,ni blokiran s strani robots.txt ali meta robotom in povezani viri ne bodo preiskani in zato ne bodo indeksirani.
  2. Nobene povezave ni mogoče prenesti z blokirane strani na cilj povezave. Če obstaja taka stran, je bolje uporabiti drug mehanizem za blokiranje kot robots.txt.

Ker se lahko druge strani neposredno povezujejo na stran z osebnimi podatki in želite to stran blokirati iz rezultatov iskanja, uporabite drugo metodo, kot je zaščita z geslom ali metapodatki brez indeksa. Nekateri iskalniki imajo več uporabniških agentov. Google na primer uporablja Googlebot za neplačana iskanja in Googlebot-Image za iskanje slik.

Večina uporabniških agentov iz istega iskalnika sledi enakim pravilom, zato ni treba navajati direktiv za vsakega od več pajkov, vendar lahko to storite tako, da natančno prilagodite pajkanje vsebine spletnega mesta. Iskalnik predpomni vsebino datoteke in običajno vsaj enkrat na dan posodobi predpomnjeno vsebino. Če uporabnik spremeni datoteko in jo želi posodobiti hitreje kot običajno, lahko pošlje URL robots.txt Googlu.

Iskalniki

Preverjanje obstoja datoteke robota
Preverjanje obstoja datoteke robota

Če želite razumeti, kako Robots txt deluje pravilno, morate vedeti o zmogljivostih iskalnikov. Skratka, njihova sposobnost je v tem, da pošiljajo "skenerje", ki so programi, kibrskanje po internetu za informacije. Nato shranijo nekaj teh informacij, da jih kasneje posredujejo uporabniku.

Za mnoge ljudi je Google že internet. Pravzaprav imajo prav, saj je to morda njegov najpomembnejši izum. In čeprav so se iskalniki od svojega začetka zelo spremenili, so osnovna načela še vedno enaka. Pajki, znani tudi kot "boti" ali "pajki", najdejo strani z več milijard spletnih mest. Iskalniki jim dajejo navodila, kam naj gredo, medtem ko lahko posamezna spletna mesta komunicirajo tudi z boti in jim povedo, katere posebne strani naj si ogledajo.

Na splošno se lastniki spletnih mest ne želijo prikazati v iskalnikih: skrbniških straneh, zalednih portalih, kategorijah in oznakah ter drugih informacijskih straneh. Datoteko robots.txt lahko uporabite tudi za preprečitev, da bi iskalniki preverjali strani. Skratka, robots.txt pove spletnim pajkom, kaj naj naredijo.

Izključi strani

To je glavni del datoteke za izključitev robota. S preprosto izjavo uporabnik sporoči botu ali skupini botov, naj ne iščejo po določenih straneh. Sintaksa je preprosta, na primer, da zavrnete dostop do vsega v imeniku "admin" spletnega mesta, napišite: Disallow: /admin. Ta vrstica bo botom preprečila pajkanje po vašem spletnem mestu.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html in vsem drugim v skrbniškem imeniku.

Če želite onemogočiti eno stran, jo preprosto navedite v vrstici za prepoved: Disallow: /public/exception.html. Zdaj stran "izjema".se ne bo preselilo, vse ostalo v mapi "public" pa bo.

Če želite vključiti več strani, jih preprosto navedite:

Imeniki in strani
Imeniki in strani

Te štiri vrstice pravilnega besedila Robots za symphony bodo veljale za katerega koli uporabniškega agenta, ki je naveden na vrhu razdelkarobots.txt za

Prepoved strani
Prepoved strani

zemljevid spletnega mesta:

Drugi ukazi:live - ne dovoli spletnim pajkom, da indeksirajo cpresources/ ali provider/.

Uporabniški agent:Disallow: /cpresources/.

Zavrni: / prodajalec / Disallow: /.env.

Postavljanje standardov

Uporabnik lahko določi posebne strani za različne bote z združevanjem prejšnjih dveh elementov, takole izgleda. Primer pravilnega txt robota za vse iskalnike je predstavljen spodaj.

Postavljanje standardov
Postavljanje standardov

Razdelka »admin« in »private« bosta nevidna Googlu in Bingu, vendar bo Google še vedno videl »skrivni« imenik, medtem ko Bing ne bo. Z uporabniškim agentom asterisk lahko določite splošna pravila za vse bote, nato pa v naslednjih razdelkih dajte posebna navodila botom. Z zgornjim znanjem lahko uporabnik napiše primer pravilnega Robots txt za vse iskalnike. Samo zaženite svoj najljubši urejevalnik besedil in povejte botom, da na določenih delih spletnega mesta niso dobrodošli.

Nasveti za izboljšanje zmogljivosti strežnika

SublimeText jevsestranski urejevalnik besedil in zlati standard za mnoge programerje. Poleg tega njegovi programski nasveti temeljijo na učinkovitem kodiranju. uporabniki cenijo prisotnost bližnjic v programu. Če želi uporabnik videti primer datoteke robots.txt, naj gre na katero koli spletno mesto in na konec doda »/robots.txt«. Tukaj je del datoteke robots.txt GiantBicycles.

Program omogoča ustvarjanje strani, ki jih uporabniki ne želijo prikazati v iskalnikih. In ima tudi nekaj ekskluzivnih stvari, o katerih le malo ljudi ve. Na primer, medtem ko datoteka robots.txt sporoča botom, kam naj ne gredo, datoteka zemljevida mesta naredi nasprotno in jim pomaga najti, kar iščejo, in čeprav iskalniki verjetno že vedo, kje se nahaja zemljevid mesta, ga ne dobijo. na poti.

Obstajata dve vrsti datotek: stran HTML ali datoteka XML. HTML stran je tista, ki obiskovalcem prikaže vse razpoložljive strani na spletnem mestu. V lastnem robots.txt je videti takole: Sitemap://www.makeuseof.com/sitemap_index.xml. Če spletnega mesta ne indeksirajo iskalniki, čeprav so ga spletni roboti večkrat preiskali, se morate prepričati, da je datoteka prisotna in da so njena dovoljenja pravilno nastavljena.

Privzeto se bo to zgodilo z vsemi namestitvami SeoToaster, po potrebi pa ga lahko ponastavite takole: Datoteka robots.txt - 644. Odvisno od strežnika PHP, če to ne deluje za uporabnika, priporočamo, da poskusite naslednje: Datoteka robots.txt - 666.

Nastavitev zakasnitve skeniranja

Direktiva o zamudi pri obhodu obvešča nekatereiskalniki, kako pogosto lahko indeksirajo stran na spletnem mestu. Meri se v sekundah, čeprav si ga nekateri iskalniki razlagajo nekoliko drugače. Nekateri ljudje vidijo zamudo pri pajkanju 5, ko jim rečejo, naj počakajo pet sekund po vsakem skeniranju, da začnejo naslednje.

Drugi to razlagajo kot navodilo za skeniranje ene strani vsakih pet sekund. Robot ne more skenirati hitreje, da bi ohranil pasovno širino strežnika. Če se mora strežnik ujemati s prometom, lahko nastavi zakasnitev obvoza. Na splošno uporabnikom v večini primerov ni treba skrbeti za to. Tako je nastavljena zakasnitev pri pajkanju osmih sekund - Zakasnitev pri iskanju: 8.

Vendar vsi iskalniki ne bodo upoštevali te direktive, zato lahko, ko onemogočite strani, za določene iskalnike nastavite različne zamude pri iskanju po vsebini. Ko so vsa navodila v datoteki nastavljena, jo lahko naložite na spletno mesto, najprej se prepričajte, da je preprosta besedilna datoteka in ima ime robots.txt ter jo lahko najdete na yoursite.com/robots.txt.

najboljši WordPress bot

Najboljši WordPress bot
Najboljši WordPress bot

Na spletnem mestu WordPress je nekaj datotek in imenikov, ki jih je treba vsakič zakleniti. Imeniki, ki jih uporabniki ne bi smeli dovoliti, so imenik cgi-bin in standardni imeniki WP. Nekateri strežniki ne dovoljujejo dostopa do imenika cgi-bin, vendar ga morajo uporabniki vključiti v direktivo disallow, preden pravilno konfigurirajo txt robotov WordPress

Standardni imeniki WordPress,ki bi morali blokirati so wp-admin, wp-content, wp-includes. Ti imeniki ne vsebujejo podatkov, ki bi bili prvotno uporabni za iskalnike, vendar obstaja izjema, tj. v imeniku wp-content obstaja podimenik z imenom uploads. Ta podimenik mora biti dovoljen v datoteki robot.txt, saj vključuje vse, kar se naloži s funkcijo za nalaganje medijev WP. WordPress uporablja oznake ali kategorije za strukturiranje vsebine.

Če se uporabljajo kategorije, je treba za izdelavo pravilnega besedila Robots za Wordpress, kot ga je določil proizvajalec programa, blokirati arhive oznak iz iskanja. Najprej preverijo bazo podatkov tako, da odprejo ploščo "Administration" > "Settings" > "Permalink".

Privzeto je osnova oznaka, če je polje prazno: Disallow: / tag /. Če je uporabljena kategorija, morate onemogočiti kategorijo v datoteki robot.txt: Disallow: /category/. Privzeto je osnova oznaka, če je polje prazno: Disallow: / tag /. Če je uporabljena kategorija, morate onemogočiti kategorijo v datoteki robot.txt: Disallow: / category /.

Datoteke, ki se uporabljajo predvsem za prikazovanje vsebine, jih bo blokirala pravilna txt datoteka Robots za Wordpress:

Roboti txt za wordpress
Roboti txt za wordpress

osnovna nastavitev Joomla

Ko uporabnik namesti Joomla, si morate ogledati pravilno nastavitev Joomla Robots txt v globalni konfiguraciji, ki se nahaja na nadzorni plošči. Nekatere nastavitve tukaj so zelo pomembne za SEO. Najprej poiščite ime spletnega mesta in se prepričajteuporablja se kratko ime strani. Nato na desni strani istega zaslona najdejo skupino nastavitev, ki se imenuje nastavitve SEO. Tisti, ki ga boste zagotovo morali spremeniti, je drugi: uporabite prepisni URL.

To se sliši zapleteno, vendar v bistvu pomaga Joomli ustvariti čistejše URL-je. Najbolj opazno, če odstranite vrstico index.php iz URL-jev. Če ga pozneje spremenite, se bodo URL-ji spremenili in Googlu to ne bo všeč. Ko pa spremenite to nastavitev, morate hkrati narediti več korakov, da ustvarite pravilen txt robotov za Joomla:

  1. Poiščite datoteko htaccess.txt v korenski mapi Joomla.
  2. Označi kot.htaccess (brez razširitve).
  3. Vključi ime spletnega mesta v naslove strani.
  4. Poiščite nastavitve metapodatkov na dnu globalnega konfiguracijskega zaslona.

Robot v oblaku MODX

Robot v oblaku MODX
Robot v oblaku MODX

Prej je MODX Cloud uporabnikom omogočal nadzor nad vedenjem, ki je omogočal strežbo datoteke robots.txt na podlagi preklopa na nadzorni plošči. Čeprav je bilo to uporabno, je bilo mogoče pomotoma dovoliti indeksiranje na uprizoritvenih/razvijalnih mestih s preklopom možnosti na nadzorni plošči. Podobno je bilo enostavno onemogočiti indeksiranje na produkcijskem mestu.

Danes storitev predvideva prisotnost datotek robots.txt v datotečnem sistemu z naslednjo izjemo: vsaka domena, ki se konča z modxcloud.com, bo služila kot Disallow: /direktiva za vse uporabniške agente, ne glede na prisotnost ali odsotnost datoteke. Produkcijska spletna mesta, ki prejemajo dejanski promet obiskovalcev, bodo morala uporabiti svojo domeno, če želi uporabnik indeksirati svoje spletno mesto.

Nekatere organizacije uporabljajo pravilen txt robotov za modx za zagon več spletnih mest iz ene namestitve z uporabo kontekstov. Primer, v katerem bi se to lahko uporabilo, bi bilo javno trženje v kombinaciji z mikro spletnimi mesti ciljne strani in morda nejavnim intranetom.

Običajno je bilo to težko narediti za večuporabniške namestitve, saj si delijo isti omrežni koren. Z MODX Cloud je to enostavno. Preprosto naložite dodatno datoteko na spletno mesto z imenom robots-intranet.example.com.txt z naslednjo vsebino in blokirala bo indeksiranje z dobro delujočimi roboti, vsa druga imena gostiteljev pa se bodo vrnila v standardne datoteke, razen če obstajajo druga posebna vozlišča imena.

Robots.txt je pomembna datoteka, ki uporabniku pomaga pri povezovanju do spletnega mesta v Googlu, večjih iskalnikih in drugih spletnih mestih. Datoteka, ki se nahaja v korenu spletnega strežnika, naroči spletnim robotom, naj preiščejo spletno mesto, določijo, katere mape naj indeksirajo ali ne, z uporabo niza navodil, imenovanega Protokol za izključitev botov. Primer pravilnega txt robota za vse iskalnike obots.txt je še posebej enostavno narediti s SeoToasterjem. Zanj je bil na nadzorni plošči ustvarjen poseben meni, tako da se botu nikoli ne bo treba preveč truditi, da bi dobil dostop.

Priporočena: