Homepage » scollegato » Che cos'è il file Robots.txt in un dominio?

    Che cos'è il file Robots.txt in un dominio?

    Se possiedi un sito web e ti interessi della salute SEO del tuo sito, dovresti familiarizzare con il file robots.txt sul tuo dominio. Che ci crediate o no, questo è un numero fastidiosamente alto di persone che lanciano rapidamente un dominio, installano un sito Web WordPress veloce e non si preoccupano di fare nulla con il loro file robots.txt.

    Questo è pericoloso. Un file robots.txt mal configurato può effettivamente distruggere la salute SEO del tuo sito e danneggiare ogni possibilità che potresti avere per far crescere il tuo traffico.

    Cos'è il file Robots.txt?

    Il robots.txt il file viene giustamente chiamato perché è essenzialmente un file che elenca le direttive per i robot Web (come i robot dei motori di ricerca) su come e su cosa possono eseguire la scansione sul tuo sito web. Questo è stato uno standard web seguito dai siti Web dal 1994 e tutti i principali web crawler aderiscono allo standard.

    Il file è memorizzato in formato testo (con estensione .txt) nella cartella principale del tuo sito web. In effetti, puoi visualizzare il file robot.txt di qualsiasi sito web semplicemente digitando il dominio seguito da /robots.txt. Se provi questo con groovyPost, vedrai un esempio di un file robot.txt ben strutturato.

    Il file è semplice ma efficace. Questo file di esempio non distingue tra i robot. I comandi vengono inviati a tutti i robot usando il User-agent: * direttiva. Ciò significa che tutti i comandi che seguono si applicano a tutti i robot che visitano il sito per eseguirne la scansione.

    Specifica dei crawler Web

    Puoi anche specificare regole specifiche per specifici web crawler. Ad esempio, puoi consentire a Googlebot (il web crawler di Google) di eseguire la scansione di tutti gli articoli sul tuo sito, ma potresti voler impedire al crawler web Yandex di eseguire la scansione di articoli sul tuo sito che contengono informazioni denigratorie sulla Russia.

    Ci sono centinaia di web crawler che perlustrano internet per informazioni sui siti Web, ma i 10 più comuni di cui dovresti preoccuparti sono elencati qui.

    • Googlebot: Motore di ricerca di Google
    • Bingbot: Motore di ricerca Bing di Microsoft
    • bere rumorosamente: Motore di ricerca di Yahoo
    • DuckDuckBot: Motore di ricerca DuckDuckGo
    • Baiduspider: Motore di ricerca Baidu cinese
    • YandexBot: Motore di ricerca russo Yandex
    • Exabot: Motore di ricerca Exalead francese
    • Facebot: Bot di scansione di Facebook
    • ia_archiver: Crawler del ranking web di Alexa
    • MJ12bot: Database di indicizzazione dei link di grandi dimensioni

    Prendendo lo scenario di esempio sopra, se si desidera consentire a Googlebot di indicizzare tutto sul proprio sito, ma si desidera bloccare Yandex dall'indicizzazione del contenuto dell'articolo in russo, aggiungere le seguenti righe al proprio file robots.txt.


    User-agent: googlebot
    Disallow: Disallow: / wp-admin /
    Disallow: /wp-login.php

    User-agent: yandexbot
    Disallow: Disallow: / wp-admin /
    Disallow: /wp-login.php
    Non consentire: / russia /

    Come puoi vedere, la prima sezione impedisce a Google di eseguire la scansione della tua pagina di accesso e delle pagine amministrative di WordPress. La seconda sezione blocca Yandex dallo stesso, ma anche dall'intera area del tuo sito in cui hai pubblicato articoli con contenuti anti-Russia.

    Questo è un semplice esempio di come puoi usare il rifiutare comando per controllare specifici web crawler che visitano il tuo sito web.

    Altri comandi di Robots.txt

    Disallow non è l'unico comando a cui puoi accedere nel tuo file robots.txt. Puoi anche utilizzare uno qualsiasi degli altri comandi che dirigeranno come un robot può eseguire la scansione del tuo sito.

    • rifiutare: Comunica allo user-agent di evitare la scansione di URL specifici o intere sezioni del tuo sito.
    • permettere: Consente di ottimizzare le pagine o le sottocartelle specifiche del tuo sito, anche se potresti aver disabilitato una cartella principale. Ad esempio, puoi disabilitare: / about /, ma poi consentire: / about / ryan /.
    • Crawl-delay: Indica al crawler di attendere xx di secondi prima di iniziare a eseguire la scansione dei contenuti del sito.
    • Mappa del sito: Fornire ai motori di ricerca (Google, Ask, Bing e Yahoo) la posizione delle sitemap XML.

    Tieni presente che i bot lo faranno solo ascolta i comandi che hai fornito quando specifichi il nome del bot.

    Un errore comune che le persone commettono è quello di disabilitare aree come / wp-admin / da tutti i bot, ma poi specificare una sezione googlebot e solo non consentire altre aree (come / about /).

    Poiché i bot seguono solo i comandi specificati nella loro sezione, è necessario rideterminare tutti gli altri comandi che hai specificato per tutti i bot (usando * user-agent).

    • rifiutare: Il comando utilizzato per dire a un utente-agente di non eseguire la scansione di un particolare URL. È consentita una sola riga "Disallow:" per ogni URL.
    • Consenti (applicabile solo per Googlebot): Il comando per comunicare a Googlebot di poter accedere a una pagina o una sottocartella anche se la sua pagina principale o sottocartella potrebbe non essere consentita.
    • Crawl-delay: Quanti secondi un crawler deve attendere prima di caricare e sottoporre a scansione i contenuti della pagina. Tieni presente che Googlebot non riconosce questo comando, ma è possibile impostare la velocità di scansione in Google Search Console.
    • Mappa del sito: Utilizzato per richiamare l'ubicazione di una sitemap XML associata a questo URL. Nota questo comando è supportato solo da Google, Ask, Bing e Yahoo.

    Tieni presente che robots.txt ha lo scopo di aiutare i bot legittimi (come i robot dei motori di ricerca) a eseguire la scansione del tuo sito in modo più efficace.

    Ci sono molti nefandi crawler che stanno esplorando il tuo sito per fare cose come raschiare gli indirizzi email o rubare i tuoi contenuti. Se vuoi provare a utilizzare il tuo file robots.txt per impedire a quei crawler di eseguire la scansione di qualsiasi cosa sul tuo sito, non preoccuparti. I creatori di questi crawler generalmente ignorano tutto ciò che hai inserito nel tuo file robots.txt.

    Perché non autorizzare nulla?

    Ottenere il motore di ricerca di Google per eseguire la scansione del maggior numero di contenuti di qualità sul tuo sito web è una preoccupazione primaria per la maggior parte dei proprietari di siti web.

    Tuttavia, Google spende solo un limite budget per la ricerca per indicizzazione e tasso di scansione su singoli siti. La velocità di scansione è il numero di richieste al secondo che Googlebot apporterà al tuo sito durante l'evento di scansione.

    Più importante è il budget per la ricerca per indicizzazione, ovvero il numero di richieste totali che Googlebot effettuerà per eseguire la scansione del tuo sito in un'unica sessione. Google "spende" il budget di ricerca per indicizzazione concentrandosi su aree del tuo sito molto popolari o modificate di recente.

    Non sei cieco a questa informazione. Se visiti gli Strumenti per i Webmaster di Google, puoi verificare in che modo il crawler gestisce il tuo sito.

    Come puoi vedere, il crawler mantiene la sua attività sul tuo sito abbastanza costante ogni giorno. Non esegue la scansione di tutti i siti, ma solo quelli che considera più importanti.

    Perché lasciare Googlebot a decidere cosa è importante sul tuo sito, quando puoi utilizzare il tuo file robots.txt per dirti quali sono le pagine più importanti? Ciò impedirà a Googlebot di perdere tempo nelle pagine di basso valore del tuo sito.

    Ottimizzazione del budget della scansione

    Google Webmaster Tools ti consente anche di controllare se Googlebot sta leggendo il file robots.txt e se ci sono errori.

    Questo ti aiuta a verificare che hai strutturato correttamente il tuo file robots.txt.

    Quali pagine devi disabilitare da Googlebot? È utile per il tuo sito SEO non consentire le seguenti categorie di pagine.

    • Pagine duplicate (come pagine compatibili con la stampante)
    • Grazie alle pagine che seguono gli ordini basati su moduli
    • Moduli di richiesta di ordini o informazioni
    • Pagine di contatto
    • Pagine di accesso
    • Magnete di piombo "vendite" pagine

    Non ignorare il tuo file Robots.txt

    Il più grande errore che fanno i nuovi proprietari di siti Web non è nemmeno guardare il loro file robots.txt. La peggiore situazione potrebbe essere il fatto che il file robots.txt blocchi effettivamente il tuo sito, o aree del tuo sito, dall'essere scansionato a tutti.

    Assicurati di rivedere il tuo file robots.txt e assicurarti che sia ottimizzato. In questo modo, Google e altri importanti motori di ricerca "vedono" tutte le cose favolose che offri al mondo con il tuo sito web.