|
Roboti in poraba prenosa podatkov |
Vam roboti porabijo veliko prenosa podatkov?
Zablokirajte jih z datoteko robots.txt!
Roboti so programi iskalcev, ki se sprehajajo po vaši spletni strani in
berejo podatke in jih shranjujejo v svoje baze. Ponavadi so to roboti
iskalnikov kot so Google, Najdi ...
Seveda želimo, da pridejo ti roboti na naše spletne strani in jih
preberejo, saj smo tako vpisani v svetovne iskalce z najnovejšimi
podatki. Vendar, ko naša stran raste in imamo na njej vedno več slik in
vsebine se s tem poveča tudi prenos podatkov, ko pa smo enkrat dovolj
pomembna spletna stran, nas veliki iskalci kot je npr. Google
obiskujejo vsak dan in "kurijo" naš prenos podatkov.
Rešitev je enostavna. Zablokirajmo robote, da bodo hodili samo na strani, katere mi želimo, da obiščejo.
To naredimo z robot.txt datoteko.
Ko robot pride na vašo spletno stran, najprej išče robot.txt datoteko.
Datoteka pove robotu, katere strani lahko pregleda (downloada). Ta
sistem se imenuje The Robots Exclusion Standard.
Format robot.txt datoteke je poseben. Vsak zapis vsebuje 2 polji: User-agent vrstico in eno ali več vrstic prepovedi. Format je:
":"
User-agent
User-agent vrstica določa robota. Na primer:
User-agent: googlebot
Lahko uporabite znak "*", da določite vse robote.
User-agent: *
Imena robotov lahko najdete v vaših log datotekah. Večina znanih iskalnikov ima kratka imena za svoje robote.
Disallow (prepovej)
Drugi del zapisa vsebuje Disallow vrstice. Te vrstice določajo datoteke
in ali mape. Na primer, naslednja vrstica pove robotu, da ne sme
downloadati datoteke email.html:
Disallow: email.html
Lahko določite tudi mape:
Disallow: /cgi-bin/
Kar pomeni prepoved dostopa do mape cgi-bin
Standard določa da npr. /tone prepove dostop do datoteke /tone.html in
/tone/index.html (datoteka tone.html in vse datoteke v mapi tone so
prepovedane).
Presledki in komentarji
Vsaka vrstica v datoteki robots.txt, ki se začne z # se smatra kot
komentar. Standard sicer dovoljuje komentarje na koncu vrstice z
ukazom, vendar je to slaba praksa.
Disallow: tone #moj komentar
Nekateri roboti zgornje vrstice ne bodo interpretirali pravilno in bodo
skušali prepovedati "tone#mojkomentar". Zato je boljše da komentarje
postavite v svojo vrstico.
Presledek na začetku je sicer dovoljen, vendar ni priporočljiv
Disallow: tone #moj komentar
Primeri
Naslednje dovoljuje vsem robotom obisk vseh strani, ker znak "*" pomeni vsi roboti
User-agent: *
Disallow:
Spodnji ne dovoli dostop nobenemu robotu
User-agent: *
Disallow: /
Naslednji prepove dostop vsem robotom do map cgi-bin in images
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Spodnji prepove dostop robotu Roverdog dostop do vseh datotek na strežniku
User-agent: Roverdog
Disallow: /
Naslednji prepoveduje Googlebotu dostop do datoteke muca.html
User-agent: googlebot
Disallow: muca.html
Za bolj kompleksne primere poizkusite dobiti robot.txt datoteke z velikih strani kot so Looksmart ali CNN.
|