Hai bisogno di creare il file robots.txt per il tuo sito web ma non hai la minima idea di come fare? Vuoi gestire, bloccare o limitare l’accesso ai bot e crawler al tuo sito tramite il file robots.txt ma non riesci a crearlo?
Il web è un complesso mondo quasi totalmente gestito dai motori di ricerca, principalmente Google fa da padrone di questo sistema automatizzato, che con i suoi bot elabora ed analizza migliaia di siti web ogni momento, ogni giorno per tutti i giorni.
Non solo Google, ma anche altri motori di ricerca meno noti o bot di dubbia provenienza analizzano i nostri siti web in continuazione, difficilmente riusciamo a identificarli, ma ci sono, e sono tanti.
Indifferentemente dal fatto che essi siano “benigni” o “maligni” nei nostri confronti, in alcuni casi abbiamo modo di limitare il loro operato, con metodi più o meno avanzati ed invasivi.
Trattando “bot” o “crawler” non dannosi, come quelli appunto dei motori di ricerca, possiamo decidere in qualunque momento, con apposite istruzioni, a quale file e cartella del nostro sito dare l’accesso per poter essere analizzati.
Queste istruzioni vengono definite tramite il file robots.txt, che andremo a spiegare in maniera dettagliata in questo articolo.
Creare e scrivere il file robots.txt
Cos’è il file robots.txt?
robots.txt è un file di testo presente nel server in cui è ospitato un sito web, non obbligatorio da avere, in cui sono contenute le istruzioni sul comportamento mirate ai bot dei motori di ricerca.
Queste istruzioni definiscono in maniera precisa i percorsi dei file e cartelle che questi bot devono e non devono analizzate o visualizzate. Le pagine escluse non verranno indicizzate da Google e simili (non vengono mostrate nei risultati di ricerca).
Queste regole sono decise dal webmaster del sito, magari per evitare che gli spider analizzino cartelle contenenti pagine web non idonee alla pubblicazione o non direttamente mirate al pubblico esterno.
Ci sono alcune eccezioni e considerazioni da fare sulle istruzioni scritte:
- Ogni regola può essere anche ignorata dagli stessi bot, che valuteranno singolarmente se analizzare quel contenuto o no. Questo dipende da molti fattori, come la sintassi utilizzata e da come i singoli crawler le interpretino.
- Non tutti i motori di ricerca supportano queste regole e potrebbero decidere indipendentemente come comportarsi.
- In rari casi le pagine escluse potrebbero essere indicizzate se collegate con altre pagine e siti.
Nella maggior parte dei casi in questo documento è riportato anche il percorso della sitemap.xml del sito, ma anche questa indicazione non è obbligatoria da scrivere.
Si crede che avere il file robots.txt nel proprio sito influire positivamente alla SEO del proprio sito. In ogni caso, averlo non costa nulla.
In genere non è previsto un file robots.txt predefinito dall’hosting, per cui difficilmente potrebbe non essere presente nel server di default e dovremo provvedere a crearcelo manualmente. Nessuna paura però, perché crearlo è molto facile, come vedremo qui di seguito.
Potrebbe interessarti: Come inviare una sitemap.xml a Google.
Come crearlo
Il file robots.txt è un comune file di testo che può essere creato anche con un semplice blocco note/notepad.
Per cui puoi iniziare aprendo il tuo editor di testo preferito (MS Word ad esempio), aprire un nuovo file, salvarlo e rinominarlo “robots.txt“. Nota bene l’estensione finale del nome che deve terminare con “.txt” e non “.txt.docx” o altro.
Ora scrivi le istruzioni/regole per i crawler o lascialo vuoto (vedi il passaggio successivo per maggiori informazioni).
A questo punto il file è pronto per essere importato nel server del tuo sito web. Qui avrai bisogno di avere accesso via FTP per il trasferimento del file.
Richiedi i dati di accesso al tuo hosting provider o a chi gestisce il sito web.
Cosa scrivere
Dopo aver creato il file robots.txt, e prima o dopo averlo importato nel server, puoi iniziare a scrivere le regole per i bot e i motori di ricerca.
L’istruzione più utilizzata è la seguente:
User-agent: *
Allow: /
Il codice sta a significare che è mirata a tutti gli user agent (Google, Google-mobile, Bing, etc…) e che questi hanno il permesso di analizzare tutti i file del sito.
La prima riga indica gli user-agent interessati, la seconda invece indica la path (percorso) dei file da includere/escludere (allow/disallow).
L’esempio contrario:
User-agent: *
Disallow: /
Questa regola comporta che ogni user-agent non ha il permesso di analizzare le pagine del sito.
Possiamo permettere e negare uno e più bot scrivendo più righe, in questo modo:
User-Agent: *
Disallow:
Allow: /notizie/
User-Agent: Googlebot
Disallow: /articoli/
Sitemap: https://www.miosito.com/sitemap.xml
Come puoi vedere abbiamo anche riportato la stringa della sitemap.xml del sito nell’ultima riga.
Come regola di base, potrebbe essere scritta anche una sola regola nel file robots.txt, con il totale accesso ai crawler per tutte le pagine del sito. Uniche eccezioni è limitare la visualizzazione verso poche pagine specifiche.
Per semplificare il tutto, esistono numerosi tool online per generare automaticamente il testo da scrivere nel file robots.txt, come quello di BytePost che puoi trovare qui […].
Leggi anche: Guida definitiva alla SEO
Iscriviti alla nostra Newsletter qui e seguici su Facebook per aggiornamenti!
Articoli recenti:
- Recensione In Fuga. Ciclo Le Cronache dell’Ultimo Druido di Kevin Hearne
- Recensione Fool Moon di Jim Butcher
- Recensione Storm Front di Jim Butcher
- Upgrade Scheda Rete. Sostituzione della Realtek RTL8822CE
- Da jQuery a JavaScript Puro: Sfruttare il Potenziale Nativo del Web