
  


---
title: "Robots.txt con 5XX durante un mes - Carlos Sánchez"
description: "Un robots.txt con 5xx durante más de un mes, se toma como si no hubiese robots.txt"
author: "Carlos Sánchez"
url: https://carlossanchezdonate.com/articulo/que-pasa-cuando-un-robots-txt-tiene-un-5xx/
image: https://carlossanchezdonate.com/wp-content/uploads/tb-robots-5xx.jpg
---





# ¿Qué pasa cuándo un robots.txt tiene un 5XX?




                Prueba documentada de un error 5xx continuado en un robots.txt






![¿Qué pasa cuándo un robots.txt tiene un 5XX?](https://carlossanchezdonate.com/wp-content/uploads/cover-robots-5xx.jpg)




**Autor:**

        : [MJ Cachón y Carlos Sánchez](https://www.linkedin.com/posts/carlos-sanchez-donate_c%C3%B3digos-de-respuesta-desde-el-servidor-en-activity-7299665613168246784-S5m1/)


**Temática: **
: [Rastreo](https://carlossanchezdonate.com/seo-avanzado/rastreo/)
, : [Servidores](https://carlossanchezdonate.com/seo-avanzado/servidores/)




**Fecha de publicación:**

        : 2025-05-13



**Última revisión:**

        : 2026-02-26




        **Índice**
                mostrar


        1
                Cronología del experimento
        2
                Cambios en la documentación extraños
        3
                Investigación sobre los efectos de 5XX en robots.txt
        3.1
                25/02/2025 — Comienza la prueba (Fase 1: no pasa nada)
        3.1.1
                Conclusiones de la Fase 1
        3.2
                12/03/2025 — Revisión del estado de la web
        3.3
                09/05/2025 — Fase 2: desaparece la caché del robots.txt
        3.4
                Fase 3: la desindexación masiva
        4
                Conclusiones finales
        4.1
                Fase 1 — Comportamiento inicial (primer mes):
        4.2
                Fase 2 — Desaparece la caché (tras el primer mes):
        4.3
                Fase 3 — Conclusión real vs documentación oficial:
        4.4
                Bonus: la recuperación

Entiendo que es una pregunta poco común y de hecho esta no es una publicación de una casuística habitual.

No obstante, es una duda que me surgió a partir de una incoherencia que leí en la documentación de Google y de una publicación del propio Gary Illyes, representante de Google. Su publicación decía lo siguiente:

**
Un archivo robots.txt que devuelva un código de estado HTTP 500/503 durante un período prolongado de tiempo eliminará tu sitio de los resultados de búsqueda, incluso si el resto del sitio es accesible para Googlebot. Lo mismo ocurre con los tiempos de espera de red. — [Gary Illyes](https://www.linkedin.com/posts/garyillyes_a-robotstxt-file-that-returns-a-500503-activity-7008062466249162752-Wyg6/)

Curiosamente, cuando te ibas a revisar la documentación, te decía que cuando el robots.txt pasaba un largo tiempo con un error 5XX, se tomaba como que no había restricciones de rastreo y a la vez, dos párrafos más tarde, estaba escrito que se consideraba que todo el sitio era inaccesible.

![Captura de la documentación de Google mostrando la contradicción entre sin restricciones de rastreo y sitio inaccesible ante un error 5XX en robots.txt](https://carlossanchezdonate.com/wp-content/uploads/incoherencia-robots-txt.jpeg)
[Fuente: Publicación de LinkedIn](https://www.linkedin.com/posts/carlos-sanchez-donate_contradicciones-dentro-de-google-estos-activity-7162671669969469440-nudF/?)
Esto es claramente contradictorio. Si ocurre un error 5XX prolongado en el robots.txt:

- El sitio puede ser totalmente inaccesible para Google.
- Puede no tener restricciones de [rastreo](https://carlossanchezdonate.com/seo-avanzado/rastreo/).

Evidentemente, ambas afirmaciones son contradictorias entre sí, y esto necesita una explicación más profunda.

La lógica y la experiencia me decían que Gary Illyes se equivocaba. Incluso hubo comentarios dándole la razón. Pero estas cuestiones hay que demostrarlas con investigación, no con palabras.

Así que acudí a la persona del sector que conozco y que más disfruta haciendo experimentos con Google, [MJ Cachón](https://www.mjcachon.com/), quien escuchó mi propuesta, quiso colaborar conmigo en la investigación y me dejó acceso a la web [https://rana.ninja/](https://rana.ninja/).

Mi premisa era la siguiente:

> El robots.txt, al tener un 5XX, utiliza su última versión cacheada, la cual se mantiene durante un mes. Pasado ese mes, se toma el robots.txt como un 4XX y se entiende que no hay restricciones de rastreo. Tal y como decía una de las versiones de la documentación oficial.

No obstante, vamos a ver qué ocurre exactamente. Por favor, nunca hagan estos experimentos en proyectos en producción que no se puedan arriesgar a perder.

## Cronología del experimento

Antes de entrar en detalle, esta es la cronología completa del experimento. Servirá para entender las fases por las que pasa una web cuando su robots.txt devuelve un 5XX de forma prolongada:

| Fecha | Evento | Efecto observado |
| ----- | ------ | ---------------- |
| 09/02/2025 | Último rastreo normal del robots.txt por Google | Google almacena la versión en caché con todas las reglas Disallow activas. |
| 25/02/2025 | Se bloquea el robots.txt con un error 503 | No ocurre nada. Google sigue respetando la versión cacheada del robots.txt. |
| 12/03/2025 | Revisión tras 15 días de 503 | Google sigue respetando las directrices cacheadas. Elimina la versión más antigua del caché. |
| ~25/03/2025 | Se cumple un mes desde el inicio del error 503 | El caché del robots.txt expira. Las reglas Disallow dejan de aplicarse. |
| 09/05/2025 | Revisión final tras más de dos meses | Desaparece el historial de robots.txt cacheados. El contenido es rastreable, pero la indexación cae en picado. |
| 26/05/2025 | Restablecemos el robots.txt a lo normal | Las páginas vuelven a indexarse con normalidad. |

El proceso sigue tres fases claras: primero no pasa nada porque Google usa la caché, luego desaparece esa caché y se eliminan las restricciones de rastreo, y finalmente comienza una desindexación masiva y progresiva. Veamos cada fase en detalle.

## Cambios en la documentación extraños

Al poco de comenzar la investigación, Google cambió la documentación.

![Comparativa del cambio en la documentación oficial de Google sobre el tratamiento de errores 5XX en robots.txt entre diciembre de 2024](https://carlossanchezdonate.com/wp-content/uploads/cambio-doc-5xx-robotstxt.jpg)
Aunque Google no hizo ningún anuncio sobre los cambios, los cuales siguen siendo contrarios a la premisa de Gary Illyes en su publicación, estos son los cambios que hubo en la [documentación oficial sobre el 5XX en el robots.txt](https://developers.google.com/search/docs/crawling-indexing/robots/robots_txt#http-status-codes) en diciembre de 2024.

| Situación | Antes (17/12/2024) | Ahora (24/12/2024) |
| --------- | ------------------ | ------------------ |
| Error 5xx o 429 al solicitar `robots.txt` | Google interpreta como si todo el sitio estuviera bloqueado temporalmente. | Google detiene el rastreo del sitio por 12 horas, pero sigue intentando obtener el `robots.txt`. |
| 30 días sin poder obtener `robots.txt` | Usa la última versión en caché. Si no hay copia, asume que no hay restricciones. | Usa la última versión en caché. Si no hay copia, sigue intentándolo, con comportamiento según la disponibilidad del sitio. |
| Después de 30 días | Sigue asumiendo sin restricciones si no hay copia en caché. | Google asume que no hay `robots.txt` y sigue rastreando normalmente, pero sigue intentando obtenerlo. |

Desde mi punto de vista y lo que hemos recogido de información, sí parece haber un rastreo del resto de la web desde el inicio. Tal y como dice la documentación, las reglas del último robots.txt almacenado en caché se respetan durante un mes y, después, no hay restricción alguna.

Vayamos a las pruebas documentadas.

## Investigación sobre los efectos de 5XX en robots.txt

Comenzamos por el inicio.

### 25/02/2025 — Comienza la prueba (Fase 1: no pasa nada)

Cachón bloquea el robots.txt de su web con un 5XX, siendo el último rastreo y registro que Google tiene de su robots.txt el 09/02/2025.

![Google Search Console mostrando el último rastreo del robots.txt de rana.ninja con fecha 09/02/2025 antes de activar el error 503](https://carlossanchezdonate.com/wp-content/uploads/25-02-robots-txt-rana-ninja-1.png)
Así es como se veía la última versión cacheada por Google del [robots.txt de Cachón](https://rana.ninja/robots.txt):

`User-agent: *

Disallow: guia-definitiva-de-screaming-frog-impulsa-el-seo-de-tu-web/

Disallow: guia-screaming/

Disallow: 13-consejos-screaming-frog-que-debes-saber/

Disallow: wp-content/themes/twentytwenty/assets/js/index.js?ver=2.0

Allow: /wp-content/uploads/*

Allow: /wp-content/*.js

Allow: /wp-content/*.css

Allow: /wp-includes/*.js

Allow: /wp-includes/*.css

Allow: /*.css$

Allow: /*.js$

Disallow: /cgi-bin

Disallow: /wp-content/plugins/

Allow: /wp-content/plugins/*.jpeg

Allow: /wp-content/plugins/*.png

Allow: /wp-content/plugins/*.js

Allow: /wp-content/plugins/*.css

Disallow: /wp-content/themes/

Allow: /wp-content/themes/*.js

Allow: /wp-content/themes/*.css

Allow: /wp-content/themes/*.woff2

Disallow: /wp-includes/

Disallow: /*/attachment/

Disallow: /tag/*/page/

Disallow: /tag/*/feed/

Disallow: /page/

Disallow: /comments/

Disallow: /xmlrpc.php

Disallow: /?attachment_id*

Disallow: *?

Disallow: ?s=

Disallow: /search

Disallow: /trackback

Disallow: /*trackback

Disallow: /*trackback*

Disallow: /*/trackback

Allow: /feed/$

Disallow: /feed/

Disallow: /comments/feed/

Disallow: */feed/$

Disallow: */*/feed/$

Disallow: */feed/rss/$

Disallow: */trackback/$

Disallow: */*/feed/$

Disallow: */*/feed/rss/$

Disallow: */*/trackback/$

Disallow: */*/*/feed/$

Disallow: /*/*/*/feed/rss/$

Disallow: /*/*/*/trackback/$

Sitemap: https://rana.ninja/sitemap_index.xml

Sitemap: https://rana.ninja/post-sitemap.xml

Sitemap: https://rana.ninja/page-sitemap.xml

`

![Última versión cacheada del robots.txt de rana.ninja en Google Search Console con la directiva Disallow: /page/ resaltada](https://carlossanchezdonate.com/wp-content/uploads/ex-robots-txt-cachon-directrices.png)
Como experimento, probaremos el rastreo de https://rana.ninja/page/, que debería estar bloqueado según la última versión cacheada. Y es exactamente lo que ocurre: pese a haber un 5XX en el robots.txt, Google sigue respetando las reglas de la versión en caché.

![Google Search Console mostrando que la URL /page/ de rana.ninja está bloqueada por el robots.txt cacheado pese al error 503 activo](https://carlossanchezdonate.com/wp-content/uploads/page-bloqueado-robots-ninja.png)
Se puede además comprobar que, aun probando en tiempo real con la herramienta de inspección de URLs, la URL no se puede rastrear pese al 5XX del robots.txt:

![Prueba en tiempo real de la herramienta de inspección de URLs de Google Search Console confirmando que /page/ sigue bloqueada por el robots.txt cacheado](https://carlossanchezdonate.com/wp-content/uploads/page-bloqueado-robots-ninja-rt.png)

#### Conclusiones de la Fase 1

Los primeros días después de haber dejado el robots.txt con un 503, esto es lo que ocurre:

- El robots.txt es inaccesible por Google.
- Google almacena la última copia en caché.
- Google respeta las reglas cacheadas del robots.txt y sigue sin poder rastrear páginas que estaban en Disallow.

En resumen: no pasa absolutamente nada. Google se comporta con total normalidad usando la versión cacheada.

### 12/03/2025 — Revisión del estado de la web

Tras 15 días con el robots.txt devolviendo un 503, Google sigue respetando las directrices cacheadas.

![Google Search Console confirmando que las directrices del robots.txt cacheado de rana.ninja siguen activas tras 15 días de error 503](https://carlossanchezdonate.com/wp-content/uploads/robots-txt-prueba-respetada.png)
La única diferencia apreciable tras estos días es que Google Search Console ha eliminado la versión más antigua cacheada:

![Historial de versiones cacheadas del robots.txt en Google Search Console mostrando la eliminación de la versión más antigua](https://carlossanchezdonate.com/wp-content/uploads/robots-txt-cached.png)

### 09/05/2025 — Fase 2: desaparece la caché del robots.txt

Queríamos comprobar si ocurría el desastre que anunciaba Gary Illyes en la web. Pasados más de dos meses, lo que encontramos fue lo siguiente.

Desaparece el historial de robots.txt cacheados:

![Google Search Console sin historial de versiones cacheadas del robots.txt de rana.ninja tras más de dos meses de error 503 continuado](https://carlossanchezdonate.com/wp-content/uploads/robots-txt-cacheados.png)
El contenido de la web es totalmente rastreable e indexable:

![Herramienta de inspección de URLs mostrando que el contenido de rana.ninja es rastreable sin restricciones de robots.txt](https://carlossanchezdonate.com/wp-content/uploads/contenido-indexable-rana-ninja.png)
La página https://rana.ninja/page/ ya no aparece como bloqueada por el robots.txt:

![Google Search Console mostrando que la URL /page/ de rana.ninja ya no está bloqueada por robots.txt tras la expiración de la caché](https://carlossanchezdonate.com/wp-content/uploads/nobloqued-robotstxt.jpg)

### Fase 3: la desindexación masiva

Aquí viene lo importante. Aunque las URLs son rastreables, Google no permite la indexación:

![Google Search Console indicando que una URL de rana.ninja es rastreable pero Google no permite su indexación tras el error 503 prolongado en robots.txt](https://carlossanchezdonate.com/wp-content/uploads/robots-txt-noindexed.jpg)
Tras varios meses de prueba, la indexación cae en picado:

![Gráfico de cobertura de indexación en Google Search Console mostrando la caída drástica de páginas indexadas en rana.ninja](https://carlossanchezdonate.com/wp-content/uploads/indexacion-muere-rana-ninja.jpg)
Al parecer, pese a que la documentación dice que se toma como que no hay restricciones con el robots.txt y que se puede rastrear todo, la desindexación es algo que ocurre de forma progresiva tras el error 5XX continuado en el robots.txt.

Y aunque hay URLs que siguen mostrándose en Google:

![Resultados de búsqueda en Google mostrando algunas URLs de rana.ninja todavía indexadas durante la desindexación progresiva](https://carlossanchezdonate.com/wp-content/uploads/indexed-page-ninja.jpg)
Es solo cuestión de tiempo que esta desindexación fatal se extienda a lo largo de toda la web:

![Resultados de búsqueda en Google mostrando la reducción progresiva de URLs indexadas de rana.ninja por el error 503 continuado en robots.txt](https://carlossanchezdonate.com/wp-content/uploads/robots-txt-error-fatal.jpg)

## Conclusiones finales

Lo que pensamos puede estar mejor o peor. Y aunque esta casuística sea algo marginal, estas son las conclusiones del estudio:

### Fase 1 — Comportamiento inicial (primer mes):

- Cuando el robots.txt devuelve un 5XX, Google utiliza la versión cacheada más reciente.
- Las directrices del último robots.txt en caché se respetan durante aproximadamente un mes.
- No hay ningún efecto negativo visible ni en el rastreo ni en la indexación.

### Fase 2 — Desaparece la caché (tras el primer mes):

- Aunque la documentación de Google dice que tras 30 días sin poder acceder al robots.txt se entiende que no hay restricciones de rastreo, en la práctica el rastreo puede continuar, pero la indexación comienza a deteriorarse progresivamente.
- Las páginas previamente bloqueadas pasan a ser rastreables, pero se observa una caída progresiva en la indexación, afectando finalmente a toda la web.

### Fase 3 — Conclusión real vs documentación oficial:

- La documentación de Google y las declaraciones públicas (como las de Gary Illyes) muestran incoherencias.
- En la práctica, el error 5XX prolongado en robots.txt termina provocando una fuerte desindexación de la web, aunque no impida directamente el rastreo.
- Esto confirma que el impacto real es más grave y más lento de lo que la documentación sugería inicialmente.

### Bonus: la recuperación

> Edit 26/05/2025: En la siguiente imagen podemos observar que, una vez se restableció el robots.txt, las páginas vuelven a indexarse con normalidad.

![Gráfico de cobertura de indexación en Google Search Console mostrando la recuperación de páginas indexadas de rana.ninja tras restaurar el robots.txt](https://carlossanchezdonate.com/wp-content/uploads/posteriori.jpg)
Esto confirma que el daño no es permanente, pero sí lo suficientemente grave como para tenerlo muy en cuenta.


        Si te gusta este artículo, me ayudarías un montón compartiendo mi contenido:

        Compartir:


                [![Compartir en LinkedIn](https://carlossanchezdonate.com/wp-content/themes/sanchezdonate/images/rrss/linkedin.svg)](https://www.linkedin.com/cws/share/?url=https://carlossanchezdonate.com/articulo/que-pasa-cuando-un-robots-txt-tiene-un-5xx/)



                [![Compartir en Twitter](https://carlossanchezdonate.com/wp-content/themes/sanchezdonate/images/rrss/tw.svg)](https://twitter.com/intent/tweet?url=https://carlossanchezdonate.com/articulo/que-pasa-cuando-un-robots-txt-tiene-un-5xx/)



                [![Compartir en Facebook](https://carlossanchezdonate.com/wp-content/themes/sanchezdonate/images/rrss/facebook.svg)](https://www.facebook.com/sharer/sharer.php?u=https://carlossanchezdonate.com/articulo/que-pasa-cuando-un-robots-txt-tiene-un-5xx/)



                [![Compartir en WhatsApp](https://carlossanchezdonate.com/wp-content/themes/sanchezdonate/images/rrss/whatsapp.svg)](whatsapp://send?text=https://carlossanchezdonate.com/articulo/que-pasa-cuando-un-robots-txt-tiene-un-5xx/)



                [![Compartir en Telegram](https://carlossanchezdonate.com/wp-content/themes/sanchezdonate/images/rrss/tlg.svg)](https://telegram.me/share/url?url=https://carlossanchezdonate.com/articulo/que-pasa-cuando-un-robots-txt-tiene-un-5xx/)





        No se te da mal el SEO Técnico

Te falta mi máster**. Accede a una formación avanzada que te permitirá aplicar e implementar SEO en cualquier tipo de WEB

        [¡Accede al Máster de SEO Técnico!](/master-seo-tecnico/)



  Tal vez te interesen otros artículos:
  [Artículos de SEO](/seo-avanzado/)





                [regex, xpath y selectores](https://carlossanchezdonate.com/articulo/regex-xpath-y-selectores/)







                [Sitemaps](https://carlossanchezdonate.com/articulo/sitemaps/)







                [Curación de enlaces en el SEO](https://carlossanchezdonate.com/articulo/curacion-de-enlaces-en-el-seo/)







                [Texto alternativo para imágenes](https://carlossanchezdonate.com/articulo/alt-imagenes/)







                [Rich Snippets con HTML](https://carlossanchezdonate.com/articulo/rich-snippets-sin-datos-estructurados/)
