Kako blokirati indeksiranje spletnega mesta v robots.txt: navodila in priporočila

Kazalo:

Kako blokirati indeksiranje spletnega mesta v robots.txt: navodila in priporočila
Kako blokirati indeksiranje spletnega mesta v robots.txt: navodila in priporočila
Anonim

Delo SEO-optimizatorja je zelo obsežno. Začetnikom svetujemo, da si zapišejo algoritem optimizacije, da ne bi zamudili nobenega koraka. V nasprotnem primeru promocijo težko imenujemo uspešno, saj bo spletno mesto nenehno doživljalo napake in napake, ki jih bo treba dolgo časa popraviti.

Eden od korakov optimizacije je delo z datoteko robots.txt. Vsak vir bi moral imeti ta dokument, saj bo brez njega težje obvladati optimizacijo. Izvaja številne funkcije, ki jih boste morali razumeti.

Robot Assistant

Datoteka robots.txt je dokument z navadnim besedilom, ki si ga lahko ogledate v standardni beležnici sistema. Ko ga ustvarjate, morate nastaviti kodiranje na UTF-8, da ga je mogoče pravilno brati. Datoteka deluje s protokoli http, https in FTP.

Ta dokument je pomočnik pri iskanju robotov. Če ne veste, vsak sistem uporablja "pajke", ki hitro plazijo po svetovnem spletu, da vrnejo ustrezna spletna mesta za poizvedbe.uporabnikov. Ti roboti morajo imeti dostop do podatkov o virih, robots.txt deluje za to.

Da bi pajki našli pot, morate poslati dokument robots.txt v korenski imenik. Če želite preveriti, ali ima spletno mesto to datoteko, v naslovno vrstico brskalnika vnesite »https://site.com.ua/robots.txt«. Namesto "site.com.ua" morate vnesti vir, ki ga potrebujete.

Delo z robots.txt
Delo z robots.txt

funkcije dokumenta

Datoteka robots.txt ponuja pajkom več vrst informacij. Omogoča lahko delni dostop, tako da "pajek" skenira določene elemente vira. Popoln dostop vam omogoča, da preverite vse razpoložljive strani. Popolna prepoved robotom preprečuje, da bi sploh začeli preverjati, in zapustijo spletno mesto.

Po obisku vira prejmejo "pajki" ustrezen odgovor na zahtevo. Lahko jih je več, vse je odvisno od informacij v robots.txt. Na primer, če je bilo skeniranje uspešno, bo robot prejel kodo 2xx.

Morda je bilo spletno mesto preusmerjeno z ene strani na drugo. V tem primeru robot prejme kodo 3xx. Če se ta koda pojavi večkrat, ji bo pajek sledil, dokler ne prejme drugega odgovora. Čeprav praviloma uporablja le 5 poskusov. V nasprotnem primeru se prikaže priljubljena napaka 404.

Če je odgovor 4xx, je robotu dovoljeno pajkati po celotni vsebini spletnega mesta. Toda v primeru kode 5xx se lahko preverjanje popolnoma ustavi, saj to pogosto kaže na začasne napake strežnika.

Iskalni roboti
Iskalni roboti

Zakajpotrebujete robots.txt?

Kot ste morda uganili, je ta datoteka vodnik za robote do korena spletnega mesta. Zdaj se uporablja za delno omejevanje dostopa do neprimerne vsebine:

  • strani z osebnimi podatki uporabnikov;
  • zrcalna spletna mesta;
  • rezultati iskanja;
  • obrazci za oddajo podatkov itd.

Če v korenu spletnega mesta ni datoteke robots.txt, bo robot preiskal absolutno vso vsebino. V skladu s tem se lahko v rezultatih iskanja pojavijo neželeni podatki, kar pomeni, da boste trpeli tako vi kot spletno mesto. Če so v dokumentu robots.txt posebna navodila, jim bo "pajek" sledil in posredoval informacije, ki jih želi lastnik vira.

Delo z datoteko

Če želite uporabiti robots.txt za blokiranje indeksiranja spletnega mesta, morate ugotoviti, kako ustvariti to datoteko. Če želite to narediti, sledite navodilom:

  1. Ustvarite dokument v Notepadu ali Notepad++.
  2. Nastavite pripono datoteke ".txt".
  3. Vnesite zahtevane podatke in ukaze.
  4. Shranite dokument in ga naložite v korensko stran spletnega mesta.

Kot vidite, je v eni od stopenj potrebno nastaviti ukaze za robote. So dveh vrst: dovoljenje (Allow) in prepoved (Disallow). Nekateri optimizatorji lahko tudi določijo hitrost pajkanja, gostitelja in povezavo do zemljevida strani vira.

Kako zapreti spletno mesto pred indeksiranjem
Kako zapreti spletno mesto pred indeksiranjem

Če želite začeti delati z robots.txt in popolnoma blokirati indeksiranje spletnega mesta, morate razumeti tudi uporabljene simbole. Na primer v dokumentuuporabite "/", kar pomeni, da je izbrano celotno spletno mesto. Če je uporabljen "", je potrebno zaporedje znakov. Na ta način bo mogoče določiti posebno mapo, ki jo je mogoče skenirati ali ne.

Funkcija botov

"Pajki" za iskalnike so različni, zato, če delate za več iskalnikov hkrati, boste morali ta trenutek upoštevati. Njihova imena so različna, kar pomeni, da če želite stopiti v stik z določenim robotom, boste morali navesti njegovo ime: »Uporabniški agent: Yandex« (brez narekovajev).

Če želite nastaviti direktive za vse iskalnike, potem morate uporabiti ukaz: "Uporabniški agent: " (brez narekovajev). Če želite, da spletno mesto pravilno blokira indeksiranje z robots.txt, morate poznati posebnosti priljubljenih iskalnikov.

Dejstvo je, da imata najbolj priljubljena iskalnika Yandex in Google več botov. Vsak od njih ima svoje naloge. Na primer, Yandex Bot in Googlebot sta glavna "pajka", ki lovita po spletnem mestu. Če poznate vse bote, boste lažje natančno prilagodili indeksiranje svojega vira.

Kako deluje datoteka robots.txt
Kako deluje datoteka robots.txt

Primeri

Torej lahko s pomočjo robots.txt zaprete spletno mesto pred indeksiranjem s preprostimi ukazi, glavna stvar je razumeti, kaj konkretno potrebujete. Na primer, če želite, da se Googlebot ne približa vašemu vira, mu morate dati ustrezen ukaz. Videti bo tako: "Uporabniški agent: Googlebot Disallow: /" (brez narekovajev).

Zdaj moramo razumeti, kaj je v tem ukazu in kako deluje. Torej "uporabniški agent"se uporablja za uporabo neposrednega klica na enega od botov. Nato navedemo, kateri, v našem primeru je to Google. Ukaz "Disallow" se mora začeti v novi vrstici in robotu prepovedati vstop na spletno mesto. Simbol poševnice v tem primeru označuje, da so za izvedbo ukaza izbrane vse strani vira.

Za kaj je robots.txt?
Za kaj je robots.txt?

V datoteki robots.txt lahko onemogočite indeksiranje za vse iskalnike s preprostim ukazom: "User-agent:Disallow: /" (brez narekovajev). Znak zvezdica v tem primeru označuje vse iskalne robote. Običajno je tak ukaz potreben, da zaustavimo indeksiranje spletnega mesta in začnemo kardinalno delo na njem, kar bi sicer lahko vplivalo na optimizacijo.

Če je vir velik in ima veliko strani, pogosto vsebuje lastniške informacije, ki jih ni zaželeno razkriti ali pa lahko negativno vplivajo na promocijo. V tem primeru morate razumeti, kako zapreti stran pred indeksiranjem v robots.txt.

Mapo ali datoteko lahko skrijete. V prvem primeru morate začeti znova tako, da stopite v stik z določenim botom ali vsemi, zato uporabimo ukaz »User-agent«, spodaj pa za določeno mapo določimo ukaz »Disallow«. Videti bo takole: "Disallow: / folder /" (brez narekovajev). Na ta način skrijete celotno mapo. Če vsebuje kakšno pomembno datoteko, ki bi jo radi prikazali, morate spodaj napisati ukaz: »Dovoli: /folder/file.php« (brez narekovajev).

Preveri datoteko

Če za zapiranje spletnega mesta uporabljate robots.txtUspelo vam je indeksirati, vendar ne veste, ali so vse vaše direktive delovale pravilno, lahko preverite pravilnost dela.

Najprej morate ponovno preveriti postavitev dokumenta. Ne pozabite, da mora biti izključno v korenski mapi. Če je v korenski mapi, potem ne bo deloval. Nato odprite brskalnik in tam vnesite naslednji naslov: "https://yoursite. com/robots.txt" (brez narekovajev). Če se v spletnem brskalniku prikaže napaka, potem datoteka ni tam, kjer bi morala biti.

Kako zapreti mapo pred indeksiranjem
Kako zapreti mapo pred indeksiranjem

Direktive je mogoče preveriti v posebnih orodjih, ki jih uporabljajo skoraj vsi spletni skrbniki. Govorimo o izdelkih Google in Yandex. Na primer, v Google Search Console je orodna vrstica, v kateri morate odpreti »Crawl« in nato zagnati »Orodje za pregled datotek Robots.txt«. Vse podatke iz dokumenta morate kopirati v okno in začeti skenirati. Popolnoma enako preverjanje lahko opravite v Yandex. Webmaster.

Priporočena: