¡¡ Nuevo Webmasters Deluxe !!

Ahora Webmasters Deluxe ha cambiado de lugar. Puedes encontrarnos en www.webmastersdeluxe.com con más contenido, más funciones y más social.

A+ | a-

jueves, 1 de enero de 2009

Archivos Robots.txt


¿Que es un archivo Robots.txt?
Un archivo robots.txt es una lista organizada de direcciones web a las que no queremos que accedan los Spiders o Crawlers, y por lo tanto no sean consideradas en el rastreo y posterior indexación en los buscadores. Los archivos robots.txt son lo primero que leerá el Spider al acceder a nuestra web, y deben de ser albergados en la ruta principal de la misma para que el Spider pueda encontrarlo. Como habrás notado se crean con la extensión .txt, o sea en archivo plano, con lo cual pueden ser creados y editados facilmente con cualquier editor de texto plano tipo Blog de notas. Además de indicar las rutas y archivos que no queremos que sean indexados, tambien nos da la posibilidad de decidir que buscadores queremos que accedan a nuestra web, y cuales no queremos que accedan, para de esta forma poder optimizar nuestros contenidos para determinados buscadores, creando mayor calidad en el posicionamiento de nuestra web.

¿Como crear un archivo robots.txt?
Realmente es un archivo muy simple de generar. Basicamente se utilizan ciertas etiquetas para denominar el buscador al que nos referimos (User-agent) y las webs que no serán rastreadas por el mismo (Disallow) . Veamos un ejemplo:

Ejemplo 1:

User-agent: googlebot
Disallow: /

En este ejemplo se hace referencia mediante User-agent al spider googlebot de Google, negándole el rastreo de cualquier página de nuestra web mediante Disallow: /

Ejemplo 2:
Podemos analizar otro ejemplo más complicado:

User-agent: googlebot
User-agent: lycra
Disallow: /webmasters-deluxe.html

En este segundo ejemplo tenemos que tanto al Spider googlebot como a lycra se les niega el rastreo de la página webmasters-deluxe.html del dominio.

Ejemplo 3:
Por último un ejemplo más:

User-agent: *
Disallow: /webmasters-deluxe.html
Disallow: /contactar.html
Disallow: /prueba.html

En este tercer ejemplo vemos como mediante el comodín asterisco (*) negamos el rastreo a cualquier Spider a las direcciones webmaster-deluxe.html, contactar.html y prueba.html de nuestro directorio.

Además de estas etiquetas básicas existen otras que aumentan la funcionalidad del archivo robots.txt. Algunas de estas etiquetas son:

Visit-time: 1200-1430

Solo permite realizar un rastreo de la web entre las 12 horas y las 14:30.

Request-rate: 5/10

Para indicar el número de páginas que se indexarán cada cierto tiempo indicado. En este caso se indexarán 5 páginas cada 10 minutos.

Además se pueden introducir comentarios mediante el comodín #. Lo que no debemos introducir son espacios entre las etiquetas, pues el archivo robots.txt se lee de una sola vez por los Spider, y si encuentran algún espacio no definido dejarán de leer el robots.txt y saltarán al primer enlace accesible.
Tenemos que tener cuidado al generar un archivo de robots.txt vacío, pues el Spider lo interpretará como que no queremos que se indexe absolutamente ningún contenido. Si queremos que nuestra web sea rastreada e indexada al completo, podemos utilizar este código:

User-agent: *
Disallow:

Herramientas para generar robots.txt
Existen algunas herramientas disponibles en internet para generar automaticamente archivos robots.txt, sin la necesidad de crear nosotros el archivo plano, pero tendrás que introducir en la mayoría de los casos todas las direcciones que quieres que figuren como no rastreables (Disallow) manualmente, lo cual no difiere mucho de crear el archivo completo desde cero. Si tienes una cuenta Google y utilizas Herramientas para Webmasters para generar el Sitemap, tambien podrás generar un archivo robots.txt facilmente, quizás la mejor opción despues de la manual.

Conclusión:
Veamos un ejemplo más completo de código de un archivo robots.txt a modo de conclusión;

User-agent: googlebot #Aplicable a googlebot
User-agent: freshbot #Aplicable a freshbot
Disallow: /contactar.html #No rastrear la página contactar.html
Disallow: /prueba.html #No rastrear la página prueba.html
Disallow: /acceso-usuarios.html #No rastrear la página acceso-usuarios.html
Disallow: /zona-privada.html #No rastrear la página zona-privada.html
Disallow: /logs #No rastrear el archivo logs
Disallow: /carpeta/articulos/articulo1.html #No rastrear la página articulo1.html en esa ruta.
Visit-time: 0000-0600 #Realizar el rastreo entre las 00:00 y las 06:00 horas.
Request-rate: 25/60 # Rastrear la cantidad de 25 páginas por hora.

No hay comentarios:

Publicar un comentario

Normas de publicación:
- El comentario debe de tener relación con la entrada
- Los comentarios anónimos están permitidos, pero serán moderados
- Argumenta tus comentarios de forma clara. Aporta información Relevante.
- No utilices unicamente Mayúsculas ni ortografías abreviadas del tipo texto SMS. Escribe correctamente.
- El Spam será borrado automaticamente.
- No hagas comentarios irrelevantes; serán considerados Spam.
- Evita las ideas generales y el lenguaje vulgar.
- Para dejar tu URL comenta con OpenID.
- Backlinks son automaticos.
- Los comentarios pueden tardar un tiempo mínimo en ser publicados.

NOTA: Los comentarios de los usuarios no reflejan las opiniones del editor. No se aceptarán bajo ningún concepto comentarios difamatorios, o faltas de respeto hacia los usuarios de este blog. Libertad de expresión Si, pero con educación.

  ©Diseño: Isi Roca.

Subir