Historia de los Buscadores
20.1. de 1993 a 2008
La web se comenzó a idear en 1980 cuando Tim Berners-Lee se plantea lo que más adelante, 10 años después, sería lo que hoy conocemos como sitios web. A finales de 1990 comenzó a aplicar sus ideas creando el primer servidor web en NeXT, el primer navegador web llamado WorldWideWeb (que también era editor HTML) y la primera página web…
Una vez comenzó la web a tener contenido, en junio de 1993 y desde el MIT (con Matthew Gray a la cabeza), se desarrolló World Wide Web Wanderer, un robot de búsqueda creado en Perl que pretendía medir el tamaño de la red. Ese robot se amplió pudiendo leer direcciones URL creándose así Wandex, el que se podría considerar el primer buscador de internet, y que tuvo grandes problemas de infraestructura y velocidad cuando alcanzó los cientos de visitas diarias, ya que su robots conseguía “tirar” los sitios que indexaba.
El siguiente buscador (quizá mejor llamarlo directorio) fue Aliweb (Archie Like Indexing on the Web), también apareció en octubre de 1993 y todavía está en marcha. Creado por Martijn Koster, lo que hacía era indexar los metatags de las páginas que se le daban a su índice, es decir, que no tenía un robot de búsqueda que consumiera gran cantidad de ancho de banda como Wandex.
Tras estos primeros procesos de rastreo en la red, Martijn Koster propuso unas sugerencias para lo que sería el fichero robots.txt que limita la acción de los robots de búsqueda en los sitios web. En ese momento se comenzaba a poder detectar cada uno de los robots mediante su agente, se sugería usar siempre una DNS única, filtrar determinados lugares del sitio para que no fuera accesible…
Aquí comenzaron a desarrollarse los primeros robots (arañas) como Jumpstation que indexaba el título, URL y cabecera del sitio, al igual que World Wide Web Worm, creado por Oliver Mc.Bryan en 1994 (y comprado en 1998 por Goto.com) que funcionaba de la misma manera. Aunque era interesante que indexaran, el problema de estos motores era la forma de mostrar resultados, ya que lo hacían sin aplicar ningún algoritmo, simplemente mostrando los resultados según la fecha de indexación. Más adelante, en diciembre, también lo hizo así el RBSE (Repository-Based Software Engineering) comenzando a aplicar un primer ranking en base a la relevancia de la palabra dada.

De forma paralela iban apareciendo algunos directorios como EINet Galaxy, que en enero de 1994 podría considerarse el primer directorio tal y como los conocemos en la actualidad. Pero, fue en abril de 1994 cuando David Filo y Jerry Yang crearon Yahoo! (anteriormente conocido como Jerry’’s Guide to the World Wide Web), una colección de las páginas web favoritas. El gran problema de Yahoo! era que comenzó siendo un directorio hecho por personas y eso llevaba mucho tiempo, por lo que tuvo que evolucionar incorporando un buscador para ese directorio. Es curiosa la historia de su nombre debido a que muchos le otorgan el nombre de Yet Another Hierachical Officious Oracle, aunque sus fundadores insisten en que se basa en los personajes de unas aventuras de Gulliver.

Hasta aquí podríamos hablar de la versión “beta” de los buscadores, la versión que no era aún ni la primera y en la que todo eran experimentos.
Así hasta que el 20 de abril de 1994 Brian Pinkerton, desde la Universidad de Washington, presentase WebCrawler. En realidad este buscador era de escritorio y nació el 27 de enero de 1994 pero en 3 meses se convirtió en un robot de la red. La gran diferencia y paso diferencial que podríamos llamar la versión 1 de los buscadores era que indexaba las páginas de forma completa y que buscaba información en ellas, al contrario de sus antecesores, que sólo buscaban en la dirección web, título o metatags. Esto hizo que la relevancia de los resultados fuera mucho mayor. Además, tenía la peculiaridad de poder ver las búsquedas en tiempo real con su Webcrawler Search Voyeur. Hay que tener en cuenta que al cabo de 7 meses llegó a su millón de consultas, que en 1995 fue comprado por AOL, en 1997 por Excite y que en 2001 pasó a ser parte de InfoSpace.
InfoSeek también apareció a principios de 1994, y aunque no llegó a tener nada especial, tuvo un gran salto en diciembre de 1995 cuando fue el motor de búsqueda por defecto en Netscape.
Tras la aparición de Webcrawler hay que destacar la aparición de Lycos el 20 de julio de 1994, creado por Michale Mauldin en la Universidad de Carnegie Mellon, con un algoritmo interesante que incluía el concepto de proximidad entre palabras. Eso sí, no indexaba de forma completa las páginas, sólo las 20 primeras frases, las 200 primeras de la cabecera y un grupo de las 100 más relevantes de todo el documento. Aunque si hay que destacar a Lycos es por la cantidad de documentos indexados: se lanzó con 54.000 documentos; en agosto de 1994 tenía 394,000 documentos; en enero de 2005, 1,5 millones; y en noviembre de 1996 llegó a los 60 millones, convirtiéndolo en el motor de búsqueda más destacado. La palabra que ofrecía más resultados era [surf].
En esta época comenzaron también a aparecer los primeros metabuscadores. Este sistema lo que hace realmente es unificar los resultados de varios motores de búsqueda para ofrecer los resultados mezclados. En 1995 apareció el primero de ellos llamado MetaCrawler creado por Erik Selberg y Oren Etzioni en la Universidad de Washington (como Webcrawler). En este caso devolvía resultados de Lycos, Altavista, Yahoo!, Excite, Webcrawler e Infoseek. El problema era su velocidad. Como curiosidad, en noviembre de 1996 ya tenía una nueva versión, en beta, para probar.
En diciembre de 1995 seis estudiantes de Stanford lanzaron Excite gracias al proyecto Architext (iniciado en 1994) que introdujo uno de los conceptos base de las búsquedas. El complicado algoritmo intentaba crear un sistema parecido a los sinónimos mediante estadísticas entre las relaciones de palabras, de forma que se podía realizar una búsqueda obteniendo resultados aunque la misma no existiera en la página (si tenía alguna relación, claro). En 1996 compró Magellan y Webcrawler y creó su propio directorio. Fue el buscador de referencia hasta mediados de 1999 y en 2002 perdió su sistema de búsqueda pasando a ser un metabuscador.
El siguiente gran lanzamiento fue AltaVista. Fue en Diciembre de 1995 cuando hizo su aparición en escena y es muy importante este lanzamiento por las mejoras que proponía: tenía ancho de banda casi ilimitado, permitía consultas en lenguaje natural (las que utilizamos habitualmente para hacer búsquedas), consultas avanzadas mediante operadores lógicos (AND, OR…), añadir o eliminar direcciones web en 24 horas, comprobar los enlaces entrantes a un sitio web e incluso permitía hacer búsquedas en los nombres de imágenes y algunos ficheros multimedia. No sólo era grande en resultados sino veloz al entregarlos. Además, ofrecía una serie de “ayudas / trucos” para mejorar la calidad de las consultas.
A finales del 95 apareció Ozú como directorio y buscador de la mano de Advernet (todavía funciona su primera dirección). La Base de Datos del buscador y del directorio estaba íntegramente gestionada y actualizada por personas (con ayuda de herramientas de rastreo y gestión de calidad).
Durante 1997 y hasta el 2000 la empresa tuvo un largo litigio contra un empleado que se robó el dominio ozu.com y que estuvo explotando el buscador paralelamente hasta que salió el juicio a favor. Mientras se usaba ozu.es que es el sitio web que ha perdurado.
A partir del 2001 las cosas evolucionaron ya que Ozú fue comprado por el Grupo Vocento y se llega a un acuerdo con Google para usar sus resultados, priorizando los resultados de Ozú, hasta que finalmente se dejó de usar el contenido original y, en 2006 comenzó a utilizar Noxtrum, ya desaparecido, y su actual vuelta a Google.
También a finales de 1995 apareció un nuevo e importante directorio: LookSmart. Creado por un matrimonio australiano, Evan Thornley y Tracey Ellery, y tras muchos problemas financieros, en 1997 se trasladaron a San Francisco y en 1998 llegaron a un acuerdo con Microsoft para ser su proveedor.

Pocos meses después, el 20 de mayo de 1996 Paul Gauthier y Eric Brewer, desde la Universidad de Berkeley, lanzaban Hotbot, que con su motor Inktomi, llegaron a un acuerdo con el sitio web de Wired que fue el que le ayudó a darse fama. Se consideró el primer motor de búsqueda capaz de indexar los millones de sitios web que había en ese momento. Tras la burbuja del 2001, perdió muchos de sus usuarios y en 2002 fue comprado por Yahoo!.
El 1 de Junio de 1996 se lanzaba el primer directorio español univesitario, Dónde? Directorio Online de España que incorporaba 1.157 resultados en su base de datos, según explica su cómo se hizo. A principios de 1997 estaba en 5.000 registros y 3,5 millones de accesos al mes. Después el número de consultas creció más lentamente. El tope se alcanzó en junio de 1998, dos años después de inaugurar el servicio, con 29.000 registros y casi 5 millones de consultas en un mes: una media de más de 100 consultas por minuto, momento en el que se produjo un estancamiento. El número de registros siguió aumentando, pero las consultas no. La razón era el colapso del servidor: no daba más de sí, no admitía más usuarios. Con 44.563 registros en la base de datos, dónde anunció que cerraba sus puertas el 1 de junio de 1999.
El siguiente de la lista es Ask Jeeves, lanzado en 1996 también; su idea era la de poder contestar preguntas de forma natural, tal y como las hacemos habitualmente. Como peculiar, su mayordomo, basado en Jeeves de P.G. Wodehouse. En 1999 compró una empresa llamada Direct Hit (creado por Gary Culli) y aplicó su tecnología en su motor de búsqueda. Apareció el verano de 1998 y mucha gente ya lo utilizaba a finales del mismo debido a la alta relevancia que ofrecía, principalmente porque basaba sus resultados de búsqueda en los clicks que hacían los usuarios (técnica que utilizan algunos en la actualidad).
El proyecto Google comenzó a desarrollarse en enero de 1996 por Sergey Brin y Larry Page en la Universidad de Stanford, llamándose BackRub debido a la tecnología que utilizaba, que calculaba la importancia de un sitio web en base a los enlaces que recibía. En esa época fue cuando Page fabricó un ordenador con piezas de Lego y con tecnología antigua que más adelante se convertiría en lo que hoy es Google. El 15 de septiembre de 1997 el dominio google.com era comprado y el 7 de septiembre de 1998 se creaba Google Inc. Una peculiaridad de Google es que en momentos especiales cambia su logo para adaptarlo a esa ocasión.

Hay que destacar dos razones por las que Google se hizo muy interesante: una interfaz muy clara y sencilla (como la de Altavista en sus inicios) y unos resultados muy relevantes. El secreto de los resultados, la tecnología PageRank (patentada el 4 de septiembre de 2001) hizo que el mundo de los motores de búsqueda cambiase completamente dando por iniciado lo que se puede llamar la versión 2 de los buscadores. Page lo que implementó fue un sistema mediante el cuál no sólo se tenían en cuenta los factores de la propia página en la que se buscaba información, sino que se tenían en cuenta otros factores externos que daban mayor o menos importancia al sitio web. Hoy en día todos los motores de búsqueda utilizan una tecnología similar (o que, al menos, tiene en cuenta estos factores).
Uno de los primeros motores de búsqueda con enfoque profesional fue Norther Light, creado en agosto de 1997 disponía ya de resultados en clustering de forma que daba sugerencias de búsqueda muy interesantes, pero no llegó a ser uno de los más utilizados por el público general. En 2002 dejó de dar servicio y hoy en día vende su tecnología.
Otro de los motores más importantes del mundo es Yandex, lanzado el 23 de septiembre 1997, el principal buscador ruso que lleva su nombre desde “Yet Another iNDEXer”, además de ser muy similar al primer buscador: Wandex. Además, la R invertida se pronuncia I en inglés, por lo que su nombre se pronuncia “Index”. En el año 2000 se fundó la compañía como tal. Uno de los elementos más interesantes de este motor es su especialización en la gramática rusa, lo que lo hace único en el mundo.

En 1998 apareció MSN Search, de la mano de Microsoft, utilizando los datos de Inktomi y también apareció el Open Directory Project (DMOZ), que, aunque no era el primer directorio hecho por personas, sí que era el primero en hacerlo de forma colaborativa. Creado por Rich Skrenta y Bob Truel y llamado inicialmente Gnuhoo, pasó a llamarse Newhoo el 5 de junio de 1998 y finalmente fue adquirido por Netscape en octubre de 1998 cuando pasó a ser el ODP, momento en el cual ya disponía de 100.000 direcciones y cerca de 4.500 editores.
A mediados de 1999 apareció en el mercado AllTheWeb. Utilizaba la tecnología de Fast, una empresa noruega que venía de la Norwegian University of Science and Technology. Este buscador ofrecía algunas mejoras con respecto a Google como por ejemplo una base de datos más actualizada, una búsqueda avanzada mucho más amplia búsquedas clusterizadas, pero nunca llegó a tener tanto éxito. En febrero de 2003 fue comprado por Overture y ésta, a su vez, en marzo de 2004 por Yahoo! que redujo algunas de sus funcionalidades. Hay que tener en cuenta que su base de datos pasó de 80 millones a finales de 1999 a 200 millones a principios de 2000 llegando a los 2.000 millones en junio de 2002 quedando en 3.300 millones cuando fue adquirida por su actual propietario. Ahora la empresa Fast ha sido comprada por Microsoft.
En 1999 también aparecía un gigante de la red: Baidu. El motor de búsqueda chino sería un punto de referencia hasta la actualidad debido a la presión que mantiene el gobierno chino sobre Internet. Es curioso que la mayor parte de la inversión que tiene viene dada de empresas estadounidenses.
En el año 2000 se lanzó el motor de búsqueda Teoma de mano de Apostolos Gerasoulis en la Universidad de Rutgers. Utilizaba un sistema de clustering para organizar los sitios en base al Subject-Specific Popularity (actualmente Expert Rank) que, al contrario del Pagerank de Google, analizaba los enlaces en un contexto en el que se daba un ranking a una página web según el tema tratado. El 11 de septiembre de 2001 fue comprado por Ask Jeeves.
El 15 noviembre de 2003, Google implementó uno de los primeros grandes cambios en su motor de búsqueda añadiendo mejoras en la búsqueda semantica. Los motores de búsqueda tenían unas necesidades básicas: clustering y semántica.
En diciembre de 2003 se creó la empresa de Seekport, funcional a partir de enero de 2004. La empresa comenzó asociándose con Arexera, que tenía tratos con la versión alemana de Infoseek. La peculiaridad de Seekport es que dispone de una versión local para cada país con un índice independiente preparado para cada una de las necesidades locales.
En 2004, cuando MSN Search dejó de recibir los datos de Looksmart pasó a utilizar los resultados del motor de Inktomi. De esta misma forma, Yahoo! también dejó los datos de Google para unificar los motores de Alltheweb, Inktomi y Altavista. En marzo de 2004 esos buscadores comenzaron a utilizar la base de datos de Yahoo!.
En esta época también comenzaron a aparecer nuevos proyectos muy interesantes. Uno de ellos es Nutch, un motor de búsqueda en código abierto y creado en Java. Aunque su desarrollo es costoso, ha conseguido el apoyo de Yahoo!.
El 30 de septiembre de 2004 se lanzó Clusty de la mano de Vivisimo. Entre sus peculiaridades hemos de destacar su filosofía completamente basada en el clustering, lo que da pie a que el idioma inglés tenga resultados razonables, pero falle en muchos otros idiomas. Además fue el primer gran buscador que ofrecía búsquedas en Blogs o la Wikipedia en una de sus opciones.
En noviembre de 2004, MSN Search y de la mano de Christopher Payne y Oshoma Momoh pusieron en marcha una primera fase pública del motor de Microsoft, que se hizo pública el 20 de enero de 2005. El 1 de noviembre de 2005 se presentaba la plataforma Windows Live que sería la nueva interfaz del motor de búsqueda.
También hay que hacer referencia a buscadores como Noxtrum del que se comenzó a saber a finales de Junio de 2005, haciendo referencia a estar enfocado principalmente en sitios en español y portugués, además de contener toda la información de Páginas Amarillas. El 30 de Noviembre de 2005 se lanzaba la versión beta, y el 22 de Abril de 2006 era presentada la primera versión final del buscador. El 1 de Abril de 2008 dejaba de estar en línea este proyecto.
Y, por ahora la última presentación, la de Quaero, el buscador europeo que se presentaba los primeros días de 2006, impulsado principalmente por los gobiernos de Francia y Alemania (que ya se ha retirado del mismo lanzando el proyecto Theseus) y potenciado por grandes empresas tecnológicas europeas. Finalmente a principios de Abril, se lanza como Exalead (buscador que llevaba años en funcionamiento con los resultados de AOL, y que tras el acuerdo de éste último con Google, decidió usar el índice de Quaero). Desde Septiembre de 2006 su índice cuenta con 8.000 millones de resultados.
En los últimos meses han aparecido dos motores centrados en las búsquedas semánticas. El primero es Hakia, que, aunque lleva desarrollándose desde 2004, se ha lanzado en beta en 2006 y se está dando a conocer desde 2007. Su planteamiento es el lanzamiento oficial a lo largo de 2008. El segundo es Powerset, lanzado en beta privada el 17 de septiembre de 2007 bajo el nombre de Powerlabs, comienza a hacer sus primeras pruebas con la Wikipedia y utiliza un algoritmo desarrollado por Xerox PARC.
20.2. Tabla Resumen de la Aparición de los Buscadores
| 1993 | Wandex Aliweb robots.txt |
| 1994 | EInet Galaxy JumpStation Yahoo! (directorio) WebCrawler WWWWorm InfoSeek Lycos RBSE |
| 1995 | MetaCrawler Excite LookSmart Altavista Ozú |
| 1996 | Hotbot / Inktomi Dónde? Ask Jeeves Backrub / Google |
| 1997 | Norther Light |
| 1998 | MSN Search ODP / DMOZ |
| 1999 | AllTheWeb Baidu |
| 2000 | Teoma |
| 2003 | Seekport |
| 2004 | Yahoo! (buscador) Nutch Clusty MSN Search (buscador) |
| 2005 | Windows Live Noxtrum |
| 2006 | Exalead (motor Quaero) Hakia |
| 2007 | Powerset |


Soy 

