Robots.txt

robots.txt

Todo lo que necesitas saber sobre el archivo Robots.txt (Guía 2022)

Google está presente en nuestro día a día para buscar cualquier tipo de información. Por todos es conocido que es el buscador más fácil de usar y además nos ofrece soluciones para prácticamente todo lo que necesitamos. Los buscadores para aportar valor, necesitan mucha información, son rastreadores de la misma y quieren conocer todo lo que concierne a nuestra alrededor y webs. En este sentido es dónde entra el conocer y entender la importancia del uso de robots.txt.

Las máquinas o robots que rastrean la web para así poder clasificar el contenido e indexar la información, son la base principal y la razón de ser de los buscadores, sin ésto, no tendría ningún sentido su existencia. Por tanto los robots.txt son una especia de máquina que se utiliza muchísimo para indexar o no el contenido de las webs. Pero no sólo se utiliza para indexar el contenido web, sino que también es utilizada para rastrear direcciones (esta acción es utilizada generalmente por spammers).

Además de los usos comentados, también se le puede sacar crédito para la localización de sitios en XML, bloquear acceso a directorios...

El tema de robots.txt tiene mucha mandanga y lo que vamos a intentar es aclararte un poco más sobre este tema.

robots.txt
Índice

    Qué es un archivo robots.txt

    La definición exacta según Google sobre qué es un archivo robots.txt es la siguiente:

    «Un archivo robots.txt es un archivo que se encuentra en la raíz de un sitio e indica a qué partes no quieres que accedan los rastreadores de los motores de búsqueda. El archivo utiliza el Estándar de exclusión de robots, que es un protocolo con un pequeño conjunto de comandos que se puede utilizar para indicar el acceso al sitio web por sección y por tipos específicos de rastreadores web (como los rastreadores móviles o los rastreadores de ordenador)».

    Explicado de otro modo, cuando creamos una web y queremos que Google acceda al contenido de la misma, necesitamos crear un archivo de texto (.txt) en nuestro dominio para darle al buscador la información que queramos que rastree. De igual modo, utilizamos este archivo robots.txt también para indicar lo que no queremos que Google rastree. Lo que se suele denominar bloqueo por robots.txt.

    ¿Cómo se crea el archivo robots.txt? 3 pasos a seguir:

    La creación del archivo robots.txt es más sencilla de lo que a priori podamos pensar.

    1- Para su correcta creación, es fundamental darle acceso a la raiz del dominio y subir al archivo el directorio raiz de primer nivel de nuestro servidor dónde esté ubicada la web, en formato .txt (texto) con el nombre : robots.txt.

    2- Para crear el archivo, has de usar un archivo de texto. No te preocupes, tanto en Mac como en Windows, puedes encontrar ejemplos de de archivos de texto planos que te pueden servir.

    3- El último paso es comprobar si funciona bien tu robots.txt. Aquí entra en juego Search Console, ya que Google nos permite con esta herramienta comprobar si Googlebot rastreará y leerá el archivo.

    Cómo funciona el archivo robots.txt

    Ya sabemos qué es el archivo robots.txt y cómo se genera. Ahora vamos a ver cómo funciona. Aunque en principio pueda parecer que es muy complejo, nada más lejos de la realidad. El funcionamiento de robots.txt es bastante sencillo.

    En este paso, los boots de Google son los encargados de rastrear el sitio web y hacer caso a las órdenes del archivo robots.txt. En contraposición tenemos otros buscadores diferentes a Google que no tienen porqué seguir las instrucciones del archivo. Estos son por ejemplo: Yahoo o ASK, de los más conocidos.

    Por ejemplo: Si nosotros bloqueamos un contenido por robots.txt, Google no podrá rastrearlo ni indexarlo, pero los demás buscadores sí. Así que en este sentido, ándate con ojo si tienes algún contenido que no quieres que se rastree. Lo mejor en este caso es evitar la creación del contenido en cuestión.

    Los diferentes tipos de robots.

    • 1- User Agents: Utilizados de forma específica para buscar y dar instrucciones. Comando: User-agent: *
    • 2- Googlebots: Estos son el resto de robots. Aquí diferenciamos entre: Googlebot-Mobile y Googlebot-Image.

    Robots.txt Disallow

    El comando Disallow nos permita limitar la indexación de archivos para este tipo de robots. Para que veas un ejemplo si queremos quitar algún contenido lo haremos de la siguiente manera:

    • Bloquear todo el sitio: Disallow: /
    • Bloquear un directorio: Disallow: /https://www.seoparatodxs.com/herramientasseo/
    • Bloquear una web entera: Disallow: /https://www.seoparatodxs.com/

    Otros comandos utilizados importantes son los siguientes:

    • Sitemap: Indica dónde está el mapa del sitio en XML.
    • Crawl-Delay: Instrucciones acerca del número de segundos de carga entre páginas. Muy utilizado en SEO para mejorar la velocidad del servidor en los temas.
    • Allow: Sun funcionamiento es justo al contrario que el comando Disallow.

    La importancia de robots.txt en SEO

    Robots.txt está muy relacionado con el SEO. Por todo lo explicado anteriormente, te habrás dado cuenta de que es muy importante saber utilizar este tipo de archivo para no liarla con nuestra página web. Si queremos utilizar el bloqueo , tenemos que saber muy bien cómo hacerlo para que no nos pueda perjudicar en el resto de nuestra página web. Con lo que te recomendamos muy encarecidamente que antes de tocarlo, sepas muy bien qué haces.

    Ya sabemos que podemos tanto indexar contenido que no queremos o de poco valor, pero también hacer justo lo contrario: Bloquear contenido y que Google no pueda rastrearlo. Así que ojito si estás pensando en tocarlo y asegúrate muy bien de todos los pasos que vas a dar.

    No obstante, si te da algún tipo de problema o necesitas ampliar más información, siempre tienes a mano Google Support, dónde te podrán ayudar a saber más sobre el tema.

    Deja una respuesta

    Tu dirección de correo electrónico no será publicada.

    Subir

    Este sitio utiliza Cookies para mejorar la experiencia de usuario. Más información