Qué Es: Robots.txt

Robots.txt es un archivo de texto que permite que un sitio web proporcione instrucciones a los robots de rastreo.

Los motores de búsqueda como Google utilizan estos rastreadores web, a veces llamados robots web, para archivar y clasificar los sitios web. La mayoría de los robots están configurados para buscar un archivo robots.txt en el servidor antes de leer cualquier otro archivo del sitio web. Lo hace para ver si el propietario de un sitio web tiene instrucciones especiales sobre cómo rastrear e indexar su sitio

El archivo robots.txt contiene un conjunto de instrucciones que solicitan al bot que ignore determinados archivos o directorios. Esto puede ser por motivos de privacidad o porque el propietario del sitio web considera que el contenido de esos archivos y directorios es irrelevante para la categorización del sitio web en los motores de búsqueda.

Si un sitio web tiene más de un subdominio, cada subdominio debe tener su propio archivo robots.txt. Es importante tener en cuenta que no todos los robots respetarán un archivo robots.txt. Algunos bots maliciosos incluso leerán el archivo robots.txt para saber a qué archivos y directorios deben dirigirse primero. Además, aunque un archivo robots.txt indique a los robots que ignoren unas páginas concretas del sitio, esas páginas pueden seguir apareciendo en los resultados de las búsquedas si están enlazadas por otras páginas que se rastrean.

Lecturas adicionales

Cómo añadir tu sitio WordPress a Google Search Console
SEO

Si quieres conocer otros artículos parecidos a Qué es: Robots.txt puedes visitar la categoría Glosario.