El archivo robots.txt parece pequeño, técnico y poco importante… hasta que bloquea una sección clave de tu web y Google deja de rastrearla. Muchas empresas no lo revisan nunca, otras lo copian de plantillas antiguas y algunas lo usan para intentar ocultar páginas cuando, en realidad, esa no es su función principal.
El robots.txt es un archivo ubicado en la raíz de una web que indica a los rastreadores qué zonas pueden o no pueden rastrear. Sirve para gestionar el acceso de bots a determinadas URLs o directorios, optimizar el rastreo y evitar que los buscadores pierdan tiempo en áreas poco relevantes, pero no debe usarse como método principal para impedir que una página aparezca en Google.
Para entenderlo rápido, el robots.txt puede ayudarte a:
- controlar qué zonas rastrean los bots;
- evitar rastreo de áreas internas;
- reducir ruido en webs grandes;
- orientar mejor el crawl budget;
- bloquear recursos sin valor SEO;
- gestionar rastreo en entornos concretos;
- proteger secciones no estratégicas del rastreo.
Soy Sergio López, Head of SEO en Media Power, y hoy vengo a contarte qué es robots.txt, para qué sirve, cómo configurarlo correctamente y qué errores debes evitar si no quieres frenar tu posicionamiento por una directiva mal escrita.
En una agencia SEO como Media Power, revisamos robots.txt dentro del SEO técnico porque un archivo mal configurado puede afectar al rastreo, la indexación indirecta y la visibilidad de páginas importantes. En SEO, una línea mal puesta puede costar mucho tráfico.
Qué es el archivo robots.txt
El archivo robots.txt es un archivo de texto que se coloca normalmente en la raíz de una web, por ejemplo:
https://www.ejemplo.com/robots.txt
Su función es dar instrucciones a los rastreadores sobre qué partes del sitio pueden o no pueden rastrear.
Google explica en su guía oficial que robots.txt se utiliza para gestionar el tráfico de rastreadores, como puedes ver en su documentación sobre robots.txt en Google Search Central.
Ejemplo básico:
User-agent: *
Disallow: /admin/
Allow: /
Esto indica que todos los bots no deberían rastrear la carpeta /admin/.
Importante: robots.txt no elimina una URL de Google si ya está indexada. Solo bloquea o limita el rastreo. Para controlar indexación hacen falta otras soluciones, como noindex, canonicals, redirecciones o eliminación de URLs, según el caso.
Para qué sirve robots.txt
El robots.txt sirve principalmente para orientar el rastreo.
Puede utilizarse para:
- bloquear zonas administrativas;
- evitar rastreo de resultados internos;
- limitar acceso a parámetros;
- gestionar recursos duplicados;
- indicar ubicación del sitemap;
- controlar bots específicos;
- evitar rastreo de entornos no públicos;
- reducir consumo de rastreo en webs grandes.
Ejemplo práctico: bloquear /wp-admin/ en WordPress puede tener sentido. Bloquear /blog/ por error puede ser un desastre si el blog es una fuente importante de tráfico orgánico.
Otro ejemplo: en una ecommerce con filtros infinitos, robots.txt puede ayudar a evitar que Google rastree combinaciones de parámetros sin valor. Pero hay que usarlo con cuidado, porque bloquear mal puede impedir que Google acceda a páginas estratégicas.
Cómo funciona robots.txt
El archivo robots.txt funciona con directivas. Las más habituales son:
| Directiva | Para qué sirve | Ejemplo |
| User-agent | Indica a qué bot aplica la regla | User-agent: Googlebot |
| Disallow | Bloquea el rastreo de una ruta | Disallow: /carrito/ |
| Allow | Permite rastreo de una ruta concreta | Allow: /blog/ |
| Sitemap | Indica ubicación del sitemap | Sitemap: https://ejemplo.com/sitemap.xml |
Ejemplo:
User-agent: *
Disallow: /carrito/
Disallow: /checkout/
Sitemap: https://www.ejemplo.com/sitemap.xml
Esto indica a todos los bots que no rastreen carrito ni checkout y muestra dónde está el sitemap.
Cómo configurar robots.txt correctamente
1. Localiza el archivo
https://tudominio.com/robots.txt
Si no existe, puedes crearlo. Si existe, revisa qué reglas contiene
Si no existe, puedes crearlo. Si existe, revisa qué reglas contiene.
2. Identifica qué quieres bloquear
No bloquees por intuición. Define qué zonas no aportan valor SEO.
Ejemplos habituales:
- /admin/
- /wp-admin/
- /carrito/
- /checkout/
- /resultados-busqueda/
- parámetros internos;
- entornos de prueba;
- áreas privadas.
3. Evita bloquear secciones estratégicas
Cuidado con bloquear:
- /blog/
- /servicios/
- /categorias/
- /productos/
- /wp-content/uploads/
- recursos CSS o JS necesarios para renderizado.
Ejemplo práctico: si bloqueas /servicios/, Google puede dejar de rastrear páginas comerciales clave. Eso puede afectar a tu visibilidad.
4. Añade el sitemap
Es recomendable incluir el sitemap:
Sitemap: https://www.ejemplo.com/sitemap.xml
Esto ayuda a los buscadores a descubrir URLs importantes, aunque no sustituye una buena arquitectura interna.
5. Prueba antes de publicar
Antes de cambiar robots.txt, revisa:
- qué URLs quedarían bloqueadas;
- si afecta a páginas importantes;
- si hay reglas contradictorias;
- si el entorno de staging está protegido;
- si el sitemap es correcto;
- si hay bots específicos que requieren reglas distintas.
Un cambio en robots.txt no debe hacerse a ciegas.
Ejemplos de robots.txt
Robots.txt básico para WordPress
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://www.ejemplo.com/sitemap.xml
Este ejemplo bloquea la zona administrativa y permite un recurso habitual necesario en WordPress.
Robots.txt para ecommerce
User-agent: *
Disallow: /carrito/
Disallow: /checkout/
Disallow: /mi-cuenta/
Disallow: /buscar/
Sitemap: https://www.ejemplo.com/sitemap.xml
Puede tener sentido bloquear zonas que no aportan valor orgánico, como carrito o checkout.
Robots.txt mal configurado
User-agent: *
Disallow: /
Este archivo bloquea el rastreo de toda la web. Puede ser útil en un entorno de prueba, pero en producción puede provocar un problema grave.
Robots.txt con bloqueo accidental del blog
User-agent: *
Disallow: /blog/
Si el blog es estratégico para SEO, esta regla puede impedir que Google rastree artículos importantes.
Errores habituales con robots.txt
| Error | Qué provoca | Cómo evitarlo |
| Bloquear toda la web | Google no rastrea nada | Revisar Disallow: / |
| Bloquear secciones SEO | Pérdida de visibilidad | Auditar reglas antes de publicar |
| Usarlo para noindex | Confusión | Usar noindex cuando proceda |
| No incluir sitemap | Menor claridad | Añadir URL del sitemap |
| Copiar plantillas | Reglas inadecuadas | Adaptar al proyecto |
| No revisar tras migración | Bloqueos accidentales | Comprobar en producción |
| Bloquear CSS o JS | Problemas de renderizado | Permitir recursos necesarios |
Un caso clásico: durante una migración, el entorno de pruebas usa Disallow: / para evitar rastreo. Al lanzar la web, alguien olvida quitarlo. Resultado: Google no puede rastrear la web nueva.
Ese error es más común de lo que parece.
Robots.txt y noindex: diferencias
Robots.txt y noindex no son lo mismo.
| Elemento | Función | Cuándo usarlo |
| Robots.txt | Controla rastreo | Para evitar que bots accedan a rutas |
| Noindex | Controla indexación | Para impedir que una página aparezca en Google |
| Canonical | Indica URL principal | Para duplicados o variantes |
| Redirección | Envía usuario y bot a otra URL | Para URLs obsoletas o cambiadas |
Ejemplo práctico: si tienes una página que no quieres que aparezca en Google, bloquearla por robots.txt puede no ser suficiente. Si Google ya la conoce, podría seguir mostrándola sin contenido rastreado. En muchos casos, es mejor permitir rastreo y aplicar noindex.
Caso práctico: ecommerce con miles de URLs filtradas
Imagina una tienda online con categorías, filtros de color, talla, precio, marca y ordenación. Cada combinación genera una URL distinta.
Sin control, Google puede rastrear miles de URLs como:
- /zapatillas?color=negro
- /zapatillas?talla=42
- /zapatillas?orden=precio
- /zapatillas?color=rojo&talla=40
El problema es que muchas no aportan valor SEO y consumen rastreo.
Una estrategia podría combinar:
- canonicals;
- noindex en determinados filtros;
- robots.txt para rutas específicas;
- mejora de arquitectura;
- sitemap limpio;
- enlazado interno hacia categorías importantes.
Robots.txt puede ser parte de la solución, pero no debería ser la única.
Cómo puede ayudarte Media Power con robots.txt
En Media Power revisamos robots.txt dentro del SEO técnico porque afecta a cómo Google accede a la web. No lo tratamos como un archivo aislado, sino como parte de una arquitectura completa de rastreo, indexación y prioridades SEO.
Podemos ayudarte a:
- auditar robots.txt;
- detectar bloqueos peligrosos;
- revisar rastreo;
- analizar indexación;
- optimizar sitemap;
- controlar URLs de bajo valor;
- revisar canonicals y noindex;
- preparar migraciones;
- evitar errores en producción;
- mejorar SEO técnico.
También podemos ayudarte desde una agencia de migraciones SEO si vas a lanzar una nueva web y necesitas asegurarte de que robots.txt, redirecciones, indexación y sitemap no pongan en riesgo tu visibilidad.
Preguntas frecuentes sobre robots.txt
¿Qué es robots.txt?
Robots.txt es un archivo de texto ubicado en la raíz de una web que indica a los rastreadores qué rutas pueden o no pueden rastrear.
¿Para qué sirve robots.txt?
Robots.txt sirve para gestionar el rastreo de bots, bloquear zonas no estratégicas, orientar el crawl budget y evitar que buscadores accedan a ciertas rutas.
¿Robots.txt impide que una página aparezca en Google?
No necesariamente. Robots.txt bloquea rastreo, pero no siempre impide indexación si Google conoce la URL por otros medios. Para evitar indexación suele usarse noindex.
¿Dónde está el archivo robots.txt?
Normalmente está en la raíz del dominio, por ejemplo: https://www.ejemplo.com/robots.txt.
¿Qué pasa si bloqueo toda la web en robots.txt?
Si bloqueas toda la web con Disallow: /, los bots no deberían rastrear ninguna página. En producción puede ser un error grave para SEO.
¿Debo incluir el sitemap en robots.txt?
Sí, suele ser recomendable incluir la URL del sitemap para ayudar a los buscadores a descubrir las páginas importantes.
Conclusión
El robots.txt es un archivo pequeño, pero puede tener un impacto enorme. Bien configurado, ayuda a controlar el rastreo y reducir ruido. Mal configurado, puede bloquear secciones clave y afectar al posicionamiento.
No es un archivo para copiar y pegar sin revisar. Debe adaptarse a la estructura, tecnología, objetivos y estrategia SEO de cada web.
En Media Power lo tenemos claro: el SEO técnico se gana en los detalles. Si quieres evitar errores de rastreo y construir una base sólida para competir, una agencia de marketing digital en Madrid puede ayudarte a convertir la parte técnica en una ventaja real.
#AcostúmbrateAGanar