Robots de búsqueda

Bots Robots de busqueda
Bots Robots de busqueda
Definiciones de Robots de Búsqueda
 ¿Qué es un robot?
Un robot es un programa que atraviesa una estructura de hipertexto recuperando ese enlace y todos los enlaces que están referenciados allí.

e ello se alimentan los grandes motores de búsqueda de la web. 

La diferencia con los Directorios, es que éstos no poseen robots, están operados por humanos y no recuperan automáticamente los enlaces incluidos en las páginas web, sino que sólo se limitan a hallar lo que las personas manualmente incluyen en ellos, pudiendo como ventaja clasificar por secciones la temática de las web al hacer el proceso manual. 

Los robots son usualmente llamados «Web Wanderers», «Web Crawlers», o «Spiders» (arañas de búsqueda) y se suele imaginar que se mueven entre los sitios como si fuesen virus, este no es el caso, un robot simplemente visita los sitios y extrae los enlaces que están incluídos dentro de estos.

Arañas (Spiders) 
Es un robot, pero otorga resultados más fríos.

Gusanos (Worms) 
Es lo mismo que un robot, aunque técnicamente un gusano es una réplica de un programa, a diferencia de un robot que es un programa original.

Orugas (Web crawlers) 
Es lo mismo que un robot, pero hay que aclarar que es un tipo específico de robot.

Hormigas (WebAnts) 
Cooperativa de robots

¿Qué es un Agente? 
La palabra «Agente» tiene muchos significados en el mundo de la computación de nuestros días. Existen varias modalidades de «agentes».

Agente autónomo
Un programa que «viaja» entre los sitios web, decidiendo por ellos mismos cuando son movidos a otros lugares y también deciden qué hacer. 

Hay que tener en cuenta que sólo pueden viajar entre sitios ubicados en servidores especiales y no son muy difundidos en el área de Internet.

Agente inteligente 
Son programas que ayudan al usuario por ejemplo: a elegir productos, rellenar formularios o a encontrar determinada cosa. Generalmente no tienen mucha tarea en la red.

Agente de usuario 
Es un nombre técnico para programas que ejecutan tareas para un usuario en la red. Un ejemplo de ellos son: Netscape Navigator, Microsoft Internet Explorer y Email User-agent como Qualcomm Eudora y otros.

Motor de búsqueda o Search engine
Se trata de un programa que busca a través de una base de datos, en el contexto de la Web, se refiere usualmente a búsquedas de bases de datos de documentos Html, recopilados por un robot.Los robots pueden ser usados para varios propósitos: 

Indexar 
Validar HTML 
Validar Links 
Monitorear «qué hay de nuevo» 
Generar imágenes

¿Cómo decide un robot qué visitar ?
Esto depende del robot. Cada uno usa diferentes estrategias. En general comienzan a trabajar desde una lista histórica de URL’s. Especialmente con documentos con muchos links, tales como una lista de servidores «what’s New»(qué hay de nuevo») y desde los sitios más populares en la Web. 

Muchos indexan servicios que le permiten dar de alta un sitio manualmente, los cuales harán cola para ser indexados por el robot. 

Son usados a veces otros recursos también como listas de correo, grupos de discusión y varios más. 

Esto les da un punto de partida para comenzar a seleccionar url’s que ha de visitar, analizarlas y usarlas como recurso para incluirlas dentro de su base de datos.

¿Cómo decide un robot qué indexar ?
Depende del robot, pero generalmente usa los títulos de HTML (Titles) o los primeros párrafos, o selecciona la HTML completa e indexa las palabras contenidas, excluyendo las de uso común (pronombres, adverbios y palabras como «web», «página», etc)dependiendo de las construcciones de HTML, etc.

Algunos seleccionan las metaetiquetas, u otros tipos especiales de tags ocultas. Una práctica muy común es indexar también los textos alternativos de los gráficos. Le recomendamos les preste especial atención, pues en caso de indexarse, son palabras que contarán con un gran peso sobre la relevancia final en el documento.

¿Cómo saber si se es visitado por un robot?
En el caso de ser visitado por un robot, las estadísticas de las páginas muestran un mismo IP que accede en unos pocos segundos a todas las páginas de su web, cosa que no puede hacerse manualmente de una forma natural. En ocasiones, por el propio nombre de Host correspondiente a su IP son reconocibles.

¿Cómo puede evitar que un robot escanee su sitio ?
El camino más rápido para evitar esto es crear un archivo robot.txt con las siguientes dos líneas y ponerlo en su servidor. 
User-agent: * 
Disallow: /Si no tiene acceso completo a su servidor, simplemente puede incluir las siguientes líneas (tags o etiquetas) en su página web para que no sea indexada: 
<META name=»ROBOTS» content=»NOINDEX»> 
Y si desea que los links no sean indexados por el robot incluya: 
<META name=»ROBOTS» content=»NOFOLLOW»>

LISTADOS DE LOS PRINCIPALES MOTORES DE BÚSQUEDA
– En inglés se les denomina «search engines»

Generales
Alexa Internet
Ask.com (antiguamente Ask Jeeves)
Baidu (China)
Bing (antiguamente Live Search)
Cuil
DuckDuckGo
Ecosia
findX
Gigablast
Google
Sohu (China)
Trovator (España)
Virgilio.it (Italia)
YaCy (libre y descentralizado, basado en tecnología P2P)
Yahoo! Search
Yandex (Rusia)
Gyffu (Colombia)
Qwant (Francia)
Mojeek (Inglaterra)(en inglés)
oscobo (Inglaterra)
unbubble (Alemania)
swisscows (Suiza)
startpage (Holanda)

De alcance limitado geográficamente
Accoona, China/EEUU
Alleba, Filipinas
Ansearch, Australia/EEUU/RU/NZ
Baidu, China
Daum, Corea
Guruji.com, India
goo, Japón
Miner.hu, Hungría
Naver, Corea
Pichenky Buscador ruso en español

De negocios
Business.com
LinkedIn

Para la empresa
AskMeNow: S3 – Semantic Search Solution
Exalead: exalead one:enterprise
Microsoft: SharePoint Search Services
Oracle Corporation: Secure Enterprise Search 10g
SAP: TREX

Dispositivos de búsqueda
Google: Google Search Appliance

Médicos
Entrez (incluye Pubmed)
GoPubMed

Noticias
Bing Noticias
Google Noticias
Yahoo Noticias

Personas
Facebook
Sonico
Spock
Tuenti
Twitter
Wink
beBee

Blogs
Technorati

Multimedia
Picsearch
YouTube
Vimeo

Código fuente
Google Code Search

BitTorrent
Demonoid
Isohunt
The Pirate Bay

Mapas
Bing Maps
Google Maps
MapQuest
OpenStreetMap
ViaMichelin
Wikiloc
WikiMapia

Precio
Google Product Search (antiguamente Froogle)
Bing Shopping (antiguamente MSN Shopping)
NexTag
Cinkis Comparador de precios especializado en cartuchos de tinta

Preguntas y respuestas
AskMeNow
Yahoo! Respuestas

Motores de búsqueda de código abierto
DuckDuckGo
findX
Gigablast
Lucene
Namazu
Nutch
Searx
Wikia Search
YaCy (libre y descentralizado, basado en tecnología P2P)

Metabuscadores
Brainboost
Dogpile
DuckDuckGo
Ixquick
Kayak (compañía)
Searx
WebCrawler

Buscadores de diapositivas PowerPoint
Slidefinder
Usenet[editar]
Google Groups (antiguamente Deja News)

Basados en
Bing
Yahoo Search
A9.com
Ms. Dewey
Ask.com
Lycos
Google Search
Aol

Motores de búsqueda extintos
Cuil
Google Answers
PubSub
Teoma
Bing

Educativos
Google Scholar
Google Books
Metabuscador
Dialnet

MÁS DETALLES AQUI
Buscadores o Robots de Búsqueda
http://www.abcdatos.com/buscadores/robot.html

Motores de Búsqueda
https://es.wikipedia.org/wiki/Anexo:Motores_de_b%C3%BAsqueda

Este soy yo, Roberto A. Paneque Fonseca, nacido en Bayamo. ¡No soy un robot!

Sé el primero en comentar

Dejar una contestacion

Tu dirección de correo electrónico no será publicada.


*