Il robots.txt Esempi pratici
Diamo un occhiata pratica al robots.txt con alcuni esempi visti dai Crawler.
Con il "cancelletto" # all'inizio, si possono scrivere dei commenti che non vengono presi in considerazione dal Motore di ricerca.
L'asterisco “ * ” (Wildchar) sta a significare "tutti i robots".
Chiaramente le indicazioni tra le parentesi "<--(a tutti i robots)" non devono essere inserite nel vostro file. Qui spiegano solo cosa fa quell'elemento a cui puntano.
Il robots.txt e le sue varianti
# robots.txt for http://www.esempio.it/
# Permesso di indicizzazione (lettura e registrazione nel database) per tutti i dati.
User-agent: *
Disallow:
Nel caso dell'esempio qui sopra, viene indicato al Motore di ricerca (allo Spider), che tutti gli "User-agent" hanno il permesso a indicizzare le pagine e seguirne i link. Questo è il famoso (Index,Follow) consigliato come Standard.
Aggiungendo una / Slash subito dopo il Disallow: / si ottiene l'esatto contrario che rappresenta lo standard noindex,nofollow che andremo a vedere più avanti.
Esempi pratici
Nel prossimo esempio indichiamo che tutti i Robots potranno indicizzare l'intero dominio escludendo il Motore di ricerca Altavista dalla lettura dei file contenuti nella cartella "Temp".
User-agent: scooter
Disallow: /temp/
User-agent: *
Disallow:
Si potrebbe aggiungere che per uno specifico file temp gli viene ammessa la lettura.
User-agent: scooter
Allow: /temp/esempio2.html
Disallow: /temp/
Nota: Per assolvere alle direttive standard dei Crawler che riconoscono l'attributo Allow:, che comprendono l'esclusione di un file dal blocco generale della cartella, la direttiva Allow:/ deve essere posta al di sopra della Disallow: in coppia.
Un esempio non conforme alle direttive standard potrebbe essere simile al seguente. La pagina esempio.html nella directory "privato" è abilitata alla scansione, ma in modo non conforme allo standard dei bot.
User-agent: Googlebot
Disallow: /privato/
Disallow: /admin/
Allow: /privato/esempio.html
Qui sopra notiamo che la direttiva Allow: per il file esempio.html é stata posta erroneamente, senza rispettare la coppia delle direttive da utilizzare nel caso uno o piú file di una cartella bloccata debbano essere ammessi alla scansione.
Eccezioni:
Vietata a tutti i Robots l'indicizzazione e la lettura dei links.
User-agent: *
Disallow: /
Con la Slash subito dopo Disallow:, indichiamo che l'indicizzazione e la lettura dei link è vietata a tutti i Browser. (nel meta tag robots della pagina Html è il: "noindex,nofollow")
La meta tag Robots
Si tenga presente che nella pagina Html è consigliabile inserire la meta robots avente nel suo contenuto l'indirizzo URL del robots.txt se la pagina non ha particolari restrizioni. Nel caso invece la pagina abbia delle particolari restrizioni, come per esempio, il blocco dei links (nofollow), o debba essere esclusa completamente dall'indice di ricerca di Google e mai più indicizzata, allora è bene inserire una meta robots in essa con le relative indicazioni. Fate attenzione! Se la pagina in questione viene bloccata dal robots.txt, una meta robots in essa diventa praticamente inutile, in quanto i Crawler non entrerebbero nella pagina e di conseguenza non verrebbero a conoscenza di quella meta. Quindi, nel caso si voglia indicare ai robots che la pagina deve essere esclusa dalle indicizazzioni e cancellata dall'indice, si inserirà una meta robots noindex,nofollow senza fare menzione di essa nel robots.txt!
La meta robots nell'Header della pagina sarà simile alla seguente:
<meta name="robots" content="http://www.iltuodominio.it/robots.txt">
<meta name="robots" content="noindex,nofollow">
Nella meta tag robots, possono essere utilizzate le seguenti combinazioni per informarlo su cosa deve fare:
- index,follow = Indicizza la pagina e segui i link
- noindex,nofollow = Non indicizzarla e non seguire i link
- index,nofollow = Indicizzala ma non seguire i link
- noindex,follow = Non indicizzarla ma segui i link
Si possono anche usare gli standard All o None, rispettivamente indicanti gli operatori: index,follow, e noindex,nofollow.
Delle eccezioni (nel proibire l'indicizzazione), si possono raggiungere inserendo delle Passwords o indicando dei diritti di ingresso CHMOD attraverso il tuo software FTP, in base alla restrizioni della pagina.
Mentre invece nella pagina Html per evitare che il robot segua un particolare link, si usa l'attributo "rel", inserendolo come segue nell'esempio:
<a rel="nofollow" href="http://www.esempio.it/"> Questo link non verrà preso in considerazione </a>.
Si tenga presente che l'attributo "rel" viene riconosciuto solo da Google, Bing e Yahoo. Per gli altri Spider non ci sono notizie ufficiali sul riconoscimento di questo elemento.
Attenzione! La pagina linkata con il "rel="nofollow", se fa parte del proprio dominio, e non viene linkata da nessuna pagina interna o esterna, perderà prima il pagerank per poi uscire completamente dagli indici di Google.
Controllo online del robots.txt
Controllate direttamente dopo aver compilato il testo, la sua funzionalità e l'eventuale presenza di errori, dopo averlo inserito online nella Root del vostro sito.(Root è la radice, la directory principale sul server dove inserite le pagine html del sito) Per inserire online nella Root il robots.txt, basta compilare il testo come da esempi qui sopra, nominarlo "robots.txt" facendo attenzione al carattere usato, che deve essere tutto minuscolo, e inserirlo infine come un qualsiasi documento html nella Root.
L'indirizzo del vostro robots.txt sarà quindi: http://www.iltuodominio.it/robots.txt
Questo è l'indirizzo dove potrete fare il test: Test online robots.txt
Il sito ufficiale dove potrete trovare maggiori informazioni:www.robotstxt.org
Altre informazioni su Googlebot potrai trovarle cliccando su: GoogleBot Info Site
