Hola de nuevo! si estas comenzando con una nueva página web o ya tienes una, ya sabes que el objetivo es mejorar el tráfico a esta, es decir cuantas mas visitas tenga, mejor para ti. Una de las formas de que lleguen nuevos visitantes es por medio de los buscadores (Google, Yahoo!, etc.).
Pero ¿como los buscadores saben que tu página existe? una de las formas es tener un archivo llamado robots.txt. Asi que en este post te hablare un poco mas sobre el.
¿QUE ES EL ARCHIVO ROBOTS.TXT?
Como su mismo nombre lo dice es un archivo dirigido a los robots o crawlers de los principales buscadores. Un crawler o robot (también llamados spiders, arañas, bots o indexadores) es un programa que accede y rastrea las páginas web de tu sitio para buscar información en ellas y añadirla a las bases de datos de los buscadores.
Esto te puede beneficiar pero también podría perjudicarte, ya que a veces no conviene que se indexen ciertas páginas de una web, ojo con eso!. También debes tener en cuenta que no todos los crawlers son confiables, algunos robots no son de algún buscador o incluso podrían ni ser amigos.
¿Y como funcionan los robots o crawlers? pues ahí es donde hace su aparición nuestro archivo robots.txt. Al llegar a tu página lo primero que hace un robot es buscar este archivo en la raíz de tu pagina web, si lo encuentra lo lee y sigue las instrucciones que ahí se encuentran y sino procede a rastrear toda tu página.
¿Porque estas instrucciones son importantes? algunas de las razones son las siguientes:
- Se puede impedir el acceso a determinados robots.
- Prohibirle a los robots ingresar a determinadas zonas de tu página web.
- Se reduce la sobrecarga del servidor.
- Eliminar contenido duplicado.
- Se puede determinar mapas del sitio.
- Y además es una buena política de programación
Los principales robots que visitan tu pagina pueden ser:
- googlebot de Google
- msnbot de MSN Search
- yahoo-slurp de Yahoo
- teoma de Ask/Teoma
- twiceler de Cuil
- gigabot de GigaBlast
- scrubby de Scrub The Web
- robozilla de DMOZ Checker
- nutch de Nutch
- ia_archiver de Alexa/Wayback
- baiduspider de Baidu
- naverbot, yeti de Naver
Ahora que ya sabes que es una archivo robots.txt y para que sirve, verifica en la raíz de tu página web si lo tienes. Si es así ábrelo y mira que instrucciones hay, y si no lo tienes te enseñare como hacerlo en la próximo post
.
Parte II: Como crear tu propio archivo robots.txt



[...] WordPress Planet « Archivo robots.txt: que es y para que sirve [...]
[...] importante es ir comprendiendo porque cada una de ellas ayudan a nuestro objetivo. En el caso del archivo robots.txt es porque le facilitamos al robot del buscador el acceso a nuestra web, igualmente cuando creas un [...]
[...] importante es ir comprendiendo porque cada una de ellas ayudan a nuestro objetivo. En el caso del archivo robots.txt es porque le facilitamos al robot del buscador el acceso a nuestra web, igualmente cuando creas un [...]
[...] Usa la URL en XML para indicarle a Google donde esta tu Sitemap. Cópiala y pegala en tu archivo robots.txt. Para ello, agrega la siguiente línea al final: Sitemap: [...]
[...] hemos visto en posts anteriores, que es y cual es la importancia del archivo robots.txt para nuestros sites. Para refrescar: al crear un archivo robots.txt, estamos indicando a los [...]
[...] motores de búsqueda o que contenido deseas bloquear, esto gracias a que ahora es posible editar el archivo robots.txt y configurar sus tags de [...]
[...] [...]