Entiendo cómo una URL puede acabar en conocimiento de Google aún cuando los dueños del sitio web al que pertenece esa dirección hayan expresado de forma explícita en su fichero robots.txt que no quieren que sea indexada - aunque no hayan puesto el noindex -. Lo que no entiendo es por qué Google o BING se empeñan en mostrar esa URL en los resultados e incluso el título.
He de decir que desde el punto de vista del hacking con buscadores es genial, y permite cosas como las que he publicado en varias ocasiones sobre cómo usar los buscadores como arma de destrucción masiva o tales como localizar la previsualización de los posts en blogger, encontrar servidores de sitios web, o acabar encontrando datos personales e información sensible.
![]() |
Figura 1: URL en los resultados de Google de un sitio protegido por robots.txt en |
Sin embargo, no acabo de entender el sentido por el que Google decide que esa información deba mostrarse. ¿No sería más sensato que si una URL está marcada con robots.txt para no aparecer que Google no la muestre en los resultados? Además, ¿no es el título parte del contenido?
![]() |
Figura 2: Título de una URL protegida por robots.txt en los resultados de Google |
Al final, si metes la URL y ofreces el comando inurl el efecto es que has indexado la URL. De hecho, esto es tan así que incluso en muchas ocasiones indexa el título, por lo que no sólo aparecen en los resultados de inurl, sino que también en los de intitle o cualquier cadena que pueda estar en el texto del título.
![]() |
Figura 3: Título y URL en los resultados de BING. Protegida por robots.txt |
En BING, esto también funciona así y La pregunta que me persigue es, inevitablemente: ¿Por qué las muestran? ¿Por qué no las ocultan simplemente? ¿Por qué lo hacen así los buscadores? ¿Por qué?
Saludos Malignos!