¿Qué es el Robots.txt y cómo configurarlo correctamente?

El archivo robots.txt parece pequeño, técnico y poco importante… hasta que bloquea una sección clave de tu web y Google deja de rastrearla. Muchas empresas no lo revisan nunca, otras lo copian de plantillas antiguas y algunas lo usan para intentar ocultar páginas cuando, en realidad, esa no es su función principal.

El robots.txt es un archivo ubicado en la raíz de una web que indica a los rastreadores qué zonas pueden o no pueden rastrear. Sirve para gestionar el acceso de bots a determinadas URLs o directorios, optimizar el rastreo y evitar que los buscadores pierdan tiempo en áreas poco relevantes, pero no debe usarse como método principal para impedir que una página aparezca en Google.

Para entenderlo rápido, el robots.txt puede ayudarte a:

controlar qué zonas rastrean los bots;
evitar rastreo de áreas internas;
reducir ruido en webs grandes;
orientar mejor el crawl budget;
bloquear recursos sin valor SEO;
gestionar rastreo en entornos concretos;
proteger secciones no estratégicas del rastreo.

Soy Sergio López, Head of SEO en Media Power, y hoy vengo a contarte qué es robots.txt, para qué sirve, cómo configurarlo correctamente y qué errores debes evitar si no quieres frenar tu posicionamiento por una directiva mal escrita.

En una agencia SEO como Media Power, revisamos robots.txt dentro del SEO técnico porque un archivo mal configurado puede afectar al rastreo, la indexación indirecta y la visibilidad de páginas importantes. En SEO, una línea mal puesta puede costar mucho tráfico.

Qué es el archivo robots.txt

El archivo robots.txt es un archivo de texto que se coloca normalmente en la raíz de una web, por ejemplo:

https://www.ejemplo.com/robots.txt

Su función es dar instrucciones a los rastreadores sobre qué partes del sitio pueden o no pueden rastrear.

Google explica en su guía oficial que robots.txt se utiliza para gestionar el tráfico de rastreadores, como puedes ver en su documentación sobre robots.txt en Google Search Central.

Ejemplo básico:

User-agent: *

Disallow: /admin/

Allow: /

Esto indica que todos los bots no deberían rastrear la carpeta /admin/.

Importante: robots.txt no elimina una URL de Google si ya está indexada. Solo bloquea o limita el rastreo. Para controlar indexación hacen falta otras soluciones, como noindex, canonicals, redirecciones o eliminación de URLs, según el caso.

Para qué sirve robots.txt

El robots.txt sirve principalmente para orientar el rastreo.

Puede utilizarse para:

bloquear zonas administrativas;
evitar rastreo de resultados internos;
limitar acceso a parámetros;
gestionar recursos duplicados;
indicar ubicación del sitemap;
controlar bots específicos;
evitar rastreo de entornos no públicos;
reducir consumo de rastreo en webs grandes.

Ejemplo práctico: bloquear /wp-admin/ en WordPress puede tener sentido. Bloquear /blog/ por error puede ser un desastre si el blog es una fuente importante de tráfico orgánico.

Otro ejemplo: en una ecommerce con filtros infinitos, robots.txt puede ayudar a evitar que Google rastree combinaciones de parámetros sin valor. Pero hay que usarlo con cuidado, porque bloquear mal puede impedir que Google acceda a páginas estratégicas.

Cómo funciona robots.txt

El archivo robots.txt funciona con directivas. Las más habituales son:

Directiva	Para qué sirve	Ejemplo
User-agent	Indica a qué bot aplica la regla	User-agent: Googlebot
Disallow	Bloquea el rastreo de una ruta	Disallow: /carrito/
Allow	Permite rastreo de una ruta concreta	Allow: /blog/
Sitemap	Indica ubicación del sitemap	Sitemap: https://ejemplo.com/sitemap.xml

Ejemplo:

User-agent: *

Disallow: /carrito/

Disallow: /checkout/

Sitemap: https://www.ejemplo.com/sitemap.xml

Esto indica a todos los bots que no rastreen carrito ni checkout y muestra dónde está el sitemap.

Cómo configurar robots.txt correctamente

1. Localiza el archivo

https://tudominio.com/robots.txt

Si no existe, puedes crearlo. Si existe, revisa qué reglas contiene

Si no existe, puedes crearlo. Si existe, revisa qué reglas contiene.

2. Identifica qué quieres bloquear

No bloquees por intuición. Define qué zonas no aportan valor SEO.

Ejemplos habituales:

/admin/
/wp-admin/
/carrito/
/checkout/
/resultados-busqueda/
parámetros internos;
entornos de prueba;
áreas privadas.

3. Evita bloquear secciones estratégicas

Cuidado con bloquear:

/blog/
/servicios/
/categorias/
/productos/
/wp-content/uploads/
recursos CSS o JS necesarios para renderizado.

Ejemplo práctico: si bloqueas /servicios/, Google puede dejar de rastrear páginas comerciales clave. Eso puede afectar a tu visibilidad.

4. Añade el sitemap

Es recomendable incluir el sitemap:

Sitemap: https://www.ejemplo.com/sitemap.xml

Esto ayuda a los buscadores a descubrir URLs importantes, aunque no sustituye una buena arquitectura interna.

5. Prueba antes de publicar

Antes de cambiar robots.txt, revisa:

qué URLs quedarían bloqueadas;
si afecta a páginas importantes;
si hay reglas contradictorias;
si el entorno de staging está protegido;
si el sitemap es correcto;
si hay bots específicos que requieren reglas distintas.

Un cambio en robots.txt no debe hacerse a ciegas.

Ejemplos de robots.txt

Robots.txt básico para WordPress

User-agent: *

Disallow: /wp-admin/

Allow: /wp-admin/admin-ajax.php

Sitemap: https://www.ejemplo.com/sitemap.xml

Este ejemplo bloquea la zona administrativa y permite un recurso habitual necesario en WordPress.

Robots.txt para ecommerce

User-agent: *

Disallow: /carrito/

Disallow: /checkout/

Disallow: /mi-cuenta/

Disallow: /buscar/

Sitemap: https://www.ejemplo.com/sitemap.xml

Puede tener sentido bloquear zonas que no aportan valor orgánico, como carrito o checkout.

Robots.txt mal configurado

User-agent: *

Disallow: /

Este archivo bloquea el rastreo de toda la web. Puede ser útil en un entorno de prueba, pero en producción puede provocar un problema grave.

Robots.txt con bloqueo accidental del blog

User-agent: *

Disallow: /blog/

Si el blog es estratégico para SEO, esta regla puede impedir que Google rastree artículos importantes.

Errores habituales con robots.txt

Error	Qué provoca	Cómo evitarlo
Bloquear toda la web	Google no rastrea nada	Revisar Disallow: /
Bloquear secciones SEO	Pérdida de visibilidad	Auditar reglas antes de publicar
Usarlo para noindex	Confusión	Usar noindex cuando proceda
No incluir sitemap	Menor claridad	Añadir URL del sitemap
Copiar plantillas	Reglas inadecuadas	Adaptar al proyecto
No revisar tras migración	Bloqueos accidentales	Comprobar en producción
Bloquear CSS o JS	Problemas de renderizado	Permitir recursos necesarios

Un caso clásico: durante una migración, el entorno de pruebas usa Disallow: / para evitar rastreo. Al lanzar la web, alguien olvida quitarlo. Resultado: Google no puede rastrear la web nueva.

Ese error es más común de lo que parece.

Robots.txt y noindex: diferencias

Robots.txt y noindex no son lo mismo.

Elemento	Función	Cuándo usarlo
Robots.txt	Controla rastreo	Para evitar que bots accedan a rutas
Noindex	Controla indexación	Para impedir que una página aparezca en Google
Canonical	Indica URL principal	Para duplicados o variantes
Redirección	Envía usuario y bot a otra URL	Para URLs obsoletas o cambiadas

Ejemplo práctico: si tienes una página que no quieres que aparezca en Google, bloquearla por robots.txt puede no ser suficiente. Si Google ya la conoce, podría seguir mostrándola sin contenido rastreado. En muchos casos, es mejor permitir rastreo y aplicar noindex.

Caso práctico: ecommerce con miles de URLs filtradas

Imagina una tienda online con categorías, filtros de color, talla, precio, marca y ordenación. Cada combinación genera una URL distinta.

Sin control, Google puede rastrear miles de URLs como:

/zapatillas?color=negro
/zapatillas?talla=42
/zapatillas?orden=precio
/zapatillas?color=rojo&talla=40

El problema es que muchas no aportan valor SEO y consumen rastreo.

Una estrategia podría combinar:

canonicals;
noindex en determinados filtros;
robots.txt para rutas específicas;
mejora de arquitectura;
sitemap limpio;
enlazado interno hacia categorías importantes.

Robots.txt puede ser parte de la solución, pero no debería ser la única.

Cómo puede ayudarte Media Power con robots.txt

En Media Power revisamos robots.txt dentro del SEO técnico porque afecta a cómo Google accede a la web. No lo tratamos como un archivo aislado, sino como parte de una arquitectura completa de rastreo, indexación y prioridades SEO.

Podemos ayudarte a:

auditar robots.txt;
detectar bloqueos peligrosos;
revisar rastreo;
analizar indexación;
optimizar sitemap;
controlar URLs de bajo valor;
revisar canonicals y noindex;
preparar migraciones;
evitar errores en producción;
mejorar SEO técnico.

También podemos ayudarte desde una agencia de migraciones SEO si vas a lanzar una nueva web y necesitas asegurarte de que robots.txt, redirecciones, indexación y sitemap no pongan en riesgo tu visibilidad.

Preguntas frecuentes sobre robots.txt

¿Qué es robots.txt?

Robots.txt es un archivo de texto ubicado en la raíz de una web que indica a los rastreadores qué rutas pueden o no pueden rastrear.

¿Para qué sirve robots.txt?

Robots.txt sirve para gestionar el rastreo de bots, bloquear zonas no estratégicas, orientar el crawl budget y evitar que buscadores accedan a ciertas rutas.

¿Robots.txt impide que una página aparezca en Google?

No necesariamente. Robots.txt bloquea rastreo, pero no siempre impide indexación si Google conoce la URL por otros medios. Para evitar indexación suele usarse noindex.

¿Dónde está el archivo robots.txt?

Normalmente está en la raíz del dominio, por ejemplo: https://www.ejemplo.com/robots.txt.

¿Qué pasa si bloqueo toda la web en robots.txt?

Si bloqueas toda la web con Disallow: /, los bots no deberían rastrear ninguna página. En producción puede ser un error grave para SEO.

¿Debo incluir el sitemap en robots.txt?

Sí, suele ser recomendable incluir la URL del sitemap para ayudar a los buscadores a descubrir las páginas importantes.

Conclusión

El robots.txt es un archivo pequeño, pero puede tener un impacto enorme. Bien configurado, ayuda a controlar el rastreo y reducir ruido. Mal configurado, puede bloquear secciones clave y afectar al posicionamiento.

No es un archivo para copiar y pegar sin revisar. Debe adaptarse a la estructura, tecnología, objetivos y estrategia SEO de cada web.

En Media Power lo tenemos claro: el SEO técnico se gana en los detalles. Si quieres evitar errores de rastreo y construir una base sólida para competir, una agencia de marketing digital en Madrid puede ayudarte a convertir la parte técnica en una ventaja real.

#AcostúmbrateAGanar

¿Qué es el robots.txt y cómo configurarlo?

Qué es el archivo robots.txt

Para qué sirve robots.txt

Cómo funciona robots.txt