Robots.txt
Il file Robots.txt ha una grande importanza nell’indicizzazione di un sito sui motori di ricerca. Esso infatti, permette agli spider di indicizzare o meno le pagine del proprio sito e deve essere inserito allo stello livello della propria home page. Attraverso il file Robots.txt possiamo chiedere al motore di ricerca di memorizzare tutto il contenuto delle nostre pagine, di non memorizzarle affatto oppure di farlo solo in parte.
Una buona risorsa che tratta questo argomento è raggiungibile presso questo indirizzo:
Il file robots.txt è un semplice file di testo che può essere creato con un programma come notepad. Le informazioni che possono essere inserite sono diverse. In generale il file deve comprendere le seguenti istruzioni:
# All robots will spider the domain
User-agent: *
Disallow:
Il valore User-agent si riferisce agli spider dei motori di ricerca. Inserire l’asterisco significa consentire l’accesso a tutti gli spider. Se invece, desideriamo che per esempio la cartella supporto non venga indicizzata, sarà sufficiente scrivere in questo modo:
# All robots will spider the domain
User-agent: *
Disallow: /supporto
