Spletno Gostovanje

|

Windows

|

Linux

|

ColdFusion

|

Registracija domen

Spletno gostovanje  
     
Roboti in poraba prenosa podatkov
Vam roboti porabijo veliko prenosa podatkov?

Zablokirajte jih z datoteko robots.txt!

Roboti so programi iskalcev, ki se sprehajajo po vaši spletni strani in berejo podatke in jih shranjujejo v svoje baze. Ponavadi so to roboti iskalnikov kot so Google, Najdi ...

Seveda želimo, da pridejo ti roboti na naše spletne strani in jih preberejo, saj smo tako vpisani v svetovne iskalce z najnovejšimi podatki. Vendar, ko naša stran raste in imamo na njej vedno več slik in vsebine se s tem poveča tudi prenos podatkov, ko pa smo enkrat dovolj pomembna spletna stran, nas veliki iskalci kot je npr. Google obiskujejo vsak dan in "kurijo" naš prenos podatkov.

Rešitev je enostavna. Zablokirajmo robote, da bodo hodili samo na strani, katere mi želimo, da obiščejo.

To naredimo z robot.txt datoteko.

Ko robot pride na vašo spletno stran, najprej išče robot.txt datoteko. Datoteka pove robotu, katere strani lahko pregleda (downloada). Ta sistem se imenuje The Robots Exclusion Standard.

Format robot.txt datoteke je poseben. Vsak zapis vsebuje 2 polji: User-agent vrstico in eno ali več vrstic prepovedi. Format je:

":"

User-agent

User-agent vrstica določa robota. Na primer:

User-agent: googlebot

Lahko uporabite znak "*", da določite vse robote.

User-agent: *

Imena robotov lahko najdete v vaših log datotekah. Večina znanih iskalnikov ima kratka imena za svoje robote.

Disallow (prepovej)

Drugi del zapisa vsebuje Disallow vrstice. Te vrstice določajo datoteke in ali mape. Na primer, naslednja vrstica pove robotu, da ne sme downloadati datoteke email.html:

Disallow: email.html

Lahko določite tudi mape:

Disallow: /cgi-bin/

Kar pomeni prepoved dostopa do mape cgi-bin

Standard določa da npr. /tone prepove dostop do datoteke /tone.html in /tone/index.html (datoteka tone.html in vse datoteke v mapi tone so prepovedane).

Presledki in komentarji

Vsaka vrstica v datoteki robots.txt, ki se začne z # se smatra kot komentar. Standard sicer dovoljuje komentarje na koncu vrstice z ukazom, vendar je to slaba praksa.

Disallow: tone #moj komentar

Nekateri roboti zgornje vrstice ne bodo interpretirali pravilno in bodo skušali prepovedati "tone#mojkomentar". Zato je boljše da komentarje postavite v svojo vrstico.

Presledek na začetku je sicer dovoljen, vendar ni priporočljiv

Disallow: tone #moj komentar

Primeri

Naslednje dovoljuje vsem robotom obisk vseh strani, ker znak "*" pomeni vsi roboti

User-agent: *
Disallow:

Spodnji ne dovoli dostop nobenemu robotu

User-agent: *
Disallow: /

Naslednji prepove dostop vsem robotom do map cgi-bin in images

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/

Spodnji prepove dostop robotu Roverdog dostop do vseh datotek na strežniku

User-agent: Roverdog
Disallow: /

Naslednji prepoveduje Googlebotu dostop do datoteke muca.html

User-agent: googlebot
Disallow: muca.html

Za bolj kompleksne primere poizkusite dobiti robot.txt datoteke z velikih strani kot so Looksmart ali CNN.
 
 
Spletno Gostovanje
Linux gostovanje
Windows gostovanje
Coldfusion gostovanje
Naročite gostovanje
Domene
Registrirajte domeno
Prenesite domeno
Obvestila
Prijave
Prijava v webmail
Pripomočki

Vsi, ki imate težave z rokami zaradi dolgotrajnega tipkanja, kliknite tukaj! 

 

Spletno gostovanje