¡¡ Nuevo Webmasters Deluxe !!

Ahora Webmasters Deluxe ha cambiado de lugar. Puedes encontrarnos en www.webmastersdeluxe.com con más contenido, más funciones y más social.

A+ | a-

lunes, 29 de diciembre de 2008

Spiders y Crawlers

¿Que es un Spider?
Los Spiders o tambien llamados Crawlers (entre los nombres más conocidos), son bots, un tipo de algoritmos o programas informáticos diseñados para analizar webs de forma automática. Están realizados a base de rutinas, de tal forma que el programa recibe una serie de direcciones web iniciales (tambien llamadas Seeds), las cuales analiza en busca de nuevos enlaces, y una vez encontrados los guarda en otra lista conocida como crawler frontier, a la espera de ser analizadas de nuevo repitiendo la operación en busca de más enlaces y así sucesivamente hasta completar la totalidad de las webs analizables, punto que nunca se alcanza pues siempre se añade nueva información al sistema. 

¿Como funciona un Spider?
Podemos decir que los Spiders son utilizados para ir tejiendo la red de webs que conforman internet, buscando siempre las nuevas webs que son añadidas. Por contraposición tambien se utilizan para saber cuales son los enlaces rotos o webs caidas.  
Los Spider cuentan con una serie de reglas que determinan la forma en que recolectan enlaces, y los enlaces que deben de ser ignorados, especificados en los archivos Robot. Esta ingente cantidad de datos es almacenada en una base de datos posteriormente puesta a disposición del algoritmo del buscador, el cual las valora asignando un Pagerank según unos criterios establecidos y las muestra por orden de importancia respecto a estos criterios.

Spiders más conocidos
A pesar de que su uso masivo por parte de los motores de búsqueda los tenga relegado casi exclusivamente a esta tarea de búsquedas de enlaces perceptibles de ser indexados, tambien tienen otros usos menos conocidos y frecuentes como son la búsqueda de emails para diferentes usos, como por ejemplo, como no podía ser de otra manera la generación de spam. 
Algunos de los Crawlers más conocidos son:
RBSE, WebCrawler, World Wide Web Worm, Google Crawler, Web Fountain, PolyBot, WebRace, Fast Crawler, DataParkSearch.

Algunos de los buscadores más conocidos que utilizan un Spider son; Google que utiliza Googlebot o Freshbot, MSN Search, Altavista, HotBot, etc. 

No hay comentarios:

Publicar un comentario

Normas de publicación:
- El comentario debe de tener relación con la entrada
- Los comentarios anónimos están permitidos, pero serán moderados
- Argumenta tus comentarios de forma clara. Aporta información Relevante.
- No utilices unicamente Mayúsculas ni ortografías abreviadas del tipo texto SMS. Escribe correctamente.
- El Spam será borrado automaticamente.
- No hagas comentarios irrelevantes; serán considerados Spam.
- Evita las ideas generales y el lenguaje vulgar.
- Para dejar tu URL comenta con OpenID.
- Backlinks son automaticos.
- Los comentarios pueden tardar un tiempo mínimo en ser publicados.

NOTA: Los comentarios de los usuarios no reflejan las opiniones del editor. No se aceptarán bajo ningún concepto comentarios difamatorios, o faltas de respeto hacia los usuarios de este blog. Libertad de expresión Si, pero con educación.

  ©Diseño: Isi Roca.

Subir