Blog validado

Hola de nuevo! si estas comenzando con una nueva página web o ya tienes una, ya sabes que el objetivo es mejorar el tráfico a esta, es decir cuantas mas visitas tenga, mejor para ti. Una de las formas de que lleguen nuevos visitantes es por medio de los buscadores (Google, Yahoo!, etc.).

Pero ¿como los buscadores saben que tu página existe? una de las formas es tener un archivo llamado robots.txt. Asi que en este post te hablare un poco mas sobre el.

¿QUE ES EL ARCHIVO ROBOTS.TXT?

Como su mismo nombre lo dice es un archivo dirigido a los robots o crawlers de los principales buscadores. Un crawler o robot (también llamados spiders, arañas, bots o indexadores) es un programa que accede y rastrea las páginas web de tu sitio para buscar información en ellas y añadirla a las bases de datos de los buscadores.

Esto te puede beneficiar pero también podría perjudicarte, ya que a veces no conviene que se indexen ciertas páginas de una web, ojo con eso!. También debes tener en cuenta que no todos los crawlers son confiables, algunos robots no son de algún buscador o incluso podrían ni ser amigos.

¿Y como funcionan los robots o crawlers? pues ahí es donde hace su aparición nuestro archivo robots.txt. Al llegar a tu página lo primero que hace un robot es buscar este archivo en la raíz de tu pagina web, si lo encuentra lo lee y sigue las instrucciones que ahí se encuentran y sino procede a rastrear toda tu página.

archivo robots-txt

¿Porque estas instrucciones son importantes? algunas de las razones son las siguientes:

  • Se puede impedir el acceso a determinados robots.
  • Prohibirle a los robots ingresar a determinadas zonas de tu página web.
  • Se reduce la sobrecarga del servidor.
  • Eliminar contenido duplicado.
  • Se puede determinar mapas del sitio.
  • Y además es una buena política de programación

Los principales robots que visitan tu pagina pueden ser:

  • googlebot de Google
  • msnbot de  MSN Search
  • yahoo-slurp de  Yahoo
  • teoma de  Ask/Teoma
  • twiceler de  Cuil
  • gigabot de  GigaBlast
  • scrubby de  Scrub The Web
  • robozilla de  DMOZ Checker
  • nutch de  Nutch
  • ia_archiver de  Alexa/Wayback
  • baiduspider de  Baidu
  • naverbot, yeti de  Naver

Ahora que ya sabes que es una archivo robots.txt y para que sirve, verifica en la raíz de tu página web si lo tienes. Si es así ábrelo y mira que instrucciones hay, y si no lo tienes te enseñare como hacerlo en la próximo post :D .

Parte  II: Como crear tu propio archivo robots.txt

Si te ha gustado este post, puedes compartirlo y dar una valoración. Gracias! :D

VN:F [1.9.17_1161]
Rating: 0.0/10 (0 votes cast)
VN:F [1.9.17_1161]
Rating: 0 (from 0 votes)
Print Friendly

Posts relacionados:

Deja un comentario

Encuesta Click7DEF

¿Cual CMS te parece el mejor?

Ver Resultados

Loading ... Loading ...
Alojamientos web
affiliate_link affiliate_link
affiliate_link affiliate_link