Il robots.txt esempio pratico delle sue varianti

Il robots.txt

Diamo un occhiata pratica al robots.txt con alcuni esempi visti dai Crawler.

Con il "cancelletto" # all'inizio, si possono scrivere dei commenti che non vengono presi in considerazione dal Motore di ricerca.

L'asterisco “ * ” è il Wildchar e sta a significare "tutti".


Esempio grafico del robots.txt

Chiaramente le indicazioni tra le parentesi "<--(a tutti i robots)" non devono essere inserite nel vostro file. Qui spiegano solo cosa fa quell'elemento a cui puntano.




Il robots.txt e le sue varianti

# robots.txt for http://www.esempio.it/
# Permesso di indicizzazione (lettura e registrazione nel database) per tutti i dati.

User-agent: *
Disallow:

Nel caso dell'esempio qui sopra, viene indicato al Motore di ricerca (allo Spider), che tutti gli "User-agent" hanno il permesso a indicizzare le pagine e seguirne i link. Questo è il famoso (Index,Follow) consigliato come Standard.

Aggiungendo una / Slash subito dopo il Disallow: / si ottiene l'esatto contrario che rappresenta lo standard noindex,nofollow che andremo a vedere più avanti.


Esempi pratici

Nel prossimo esempio indichiamo che tutti i Robots potranno indicizzare l'intero dominio escludendo il Motore di ricerca Altavista dalla lettura dei file contenuti nella cartella "Temp".

User-agent: *
Disallow:
User-agent: scooter
Disallow: /temp/

Si potrebbe aggiungere che per uno specifico file "temp" gli è ammessa la lettura.

User-agent: scooter
Disallow: /temp/
Allow: /temp/esempio2.html


Eccezioni:

Vietata a tutti i Browser l'indicizzazione e la lettura dei links.

User-agent: *
Disallow: /

Con la Slash subito dopo Disallow:, indichiamo che l'indicizzazione e la lettura dei link è vietata a tutti i Browser. (nel meta tag robots della pagina Html è il: "noindex,nofollow")

Tieni presente che nella pagina Html è consigliabile inserire la meta robots avente nel suo contenuto l'indirizzo URL del vostro robots.txt, evitando di lasciare questa meta con l'indicazione Index,Follow! Questo farebbe saltare in molti Spider la lettura del vostro robots.txt con tutto ciò che ne deriverebbe!

Il meta robots nell'Header della pagina sarà simile al seguente:

<meta name="robots" content="http://www.iltuodominio.it/robots.txt">

Delle eccezioni (nel proibire), si possono raggiungere inserendo delle Passwords o indicando dei diritti di ingresso CHMOD nel tuo software FTP, in base alla restrizioni della pagina.


Mentre invece nella pagina Html per evitare che il robot segua un particolare link, si usa l'attributo "rel", inserendolo come segue nell'esempio:

<a href="http://www.esempio.it/" rel="nofollow">Questo link non verrà preso in considerazione</a>.

Si tenga presente che l'attributo "rel" viene riconosciuto solo da Google e da Yahoo. Per gli altri Spider non ci sono notizie ufficiali sul riconoscimento di questo elemento.

Se il Robot incontra questa indicazione, non prende in considerazione il particolare link, e non seguendolo non lo indicizza e non penalizza se il link portasse a dei siti o a pagine di scarso valore o facenti uso di tecniche di posizionamento illegali, la pagina da cui proviene. Attenzione! La pagina linkata con il "rel="nofollow", se facente parte del proprio dominio, e non viene linkata da nessuna pagina interna o esterna, perderà prima il pagerank per poi uscire completamente dagli indici di Google.


Controllo online del robots.txt

Controllate direttamente dopo aver compilato il testo, la sua funzionalità e l'eventuale presenza di errori, dopo averlo inserito online nella Root del vostro sito.(Root è la radice, la directory principale sul server dove inserite le pagine html del sito) Per inserire online nella Root il robots.txt, basta compilare il testo come da esempi qui sopra, nominarlo "robots.txt" facendo attenzione al carattere usato, che deve essere tutto minuscolo, e inserirlo infine come un qualsiasi documento html nella Root. L'indirizzo del vostro robots.txt sarà quindi: http://www.iltuodominio.it/robots.txt

Questo è l'indirizzo dove potrete fare il test: Test online robots.txt

Quest'altro invece è il sito ufficiale dove potrete trovare maggiori informazioni:www.robotstxt.org

Altre informazioni su Googlebot potrai trovarle cliccando su: GoogleBot Info Site