9 de junio de 2014

La verdadera (y fascinante) historia del algoritmo de Google.

Mucho se ha dicho y escrito sobre la "piedra filosofal" de Google, su afamado algoritno "Page Rank". A seguir, algunas precisiones que bien vale la pena conocer y difundir.
  • El algoritmo PageRank no es una idea original de Google. El mérito fue su implementación eficiente en una red de miles de millones de nodos.
  • Larry Page y Sergei Brin querían ser académicos, no empresarios. En 1997 ofrecieron el algoritmo a Yahoo por un millón de dólares, pero la empresa declinó la oferta. En 2002, Yahoo intentó hacerse con PageRank por 3.000 millones de dólares, y Google la rechazó.
  • Quizás la primera aplicación práctica conocida del algoritmo se debe a un economista: Wassily Leontief (premio Nobel en 1971), de la Universidad de Harvard. Lo utilizó para representar el funcionamiento de una economía mediante un modelo de red Input-Output.
 “La importancia de una página web es un problema inherentemente subjetivo que depende del interés de los lectores, de su conocimiento y de sus inclinaciones. Aun así, se puede decir objetivamente mucho sobre la importancia relativa de las páginas web. Este artículo describe PageRank, un método para valorar las páginas web de forma objetiva y mecánica, midiendo de forma efectiva la atención e interés humanos dirigidos hacia cada página. Comparamos PageRank con un "web surfer” aleatorio idealizado. Mostramos como calcular de forma eficiente el PageRank para un número grande de páginas y mostramos cómo utilizar el PageRank para la búsqueda y navegación de los usuarios”.

Así comienza uno de los artículos científicos más importantes de la historia, al menos en términos de su impacto inmediato sobre la realidad económica y social: “ The PageRank Citation Ranking: Bringing Order to the Web”, en el que Larry Page y Sergey Brin sentaban las bases de lo que sería el buscador de Google.

Internet es hoy lo que es gracias al ingente esfuerzo de un grupo de ingenieros por ordenar la información de forma relevante en un entorno en el que los grandes portales habían vendido los resultados de las búsquedas al mejor postor. Mientras tanto, dos estudiantes de doctorado de Stanford proponían un método para calcular la importancia de cada web a partir de los vínculos (links) que cada web recibía, así como de la importancia relativa de las páginas que emitían cada vínculo.

Pero, a pesar de la importancia del artículo, la cultura popular ha inflado la importancia real del propio algoritmo e ignorado lo que convirtió a Google en lo que es hoy: su implementación eficiente en una red de miles de millones de nodos.

De los 24 millones de páginas web que su primera versión consiguió indexar, Internet ha crecido hoy hasta superar, según estimaciones razonables, los 4.000 millones de direcciones distintas. Dado que el algoritmo ha de buscar no solo los vínculos de primer orden que una página recibe, sino también los de órdenes superiores, el problema real no se encuentra en la idea original de cómo medir la relevancia en Internet, sino en lograr indexar el mayor porcentaje de sitios existentes de Internet (¡miles de millones!) y en evaluar los vínculos que entran y salen de cada web.

Como afirmaba Thomas Alva Edison, “el genio consiste en una parte de inspiración y 99 de trabajo duro”. Aunque nos gusta creer que un momento de inspiración puede dar lugar a esa idea que nos hará ricos, lo cierto es que, tras esa inspiración inicial que todo el mundo experimenta de vez en cuando, se encuentran 99 partes más de durísimo trabajo para dar forma e implementar la idea para que sea socialmente útil. Y, de la misma forma, la idea del PageRank es solo un pequeño momento de inspiración al que siguió un enorme esfuerzo por parte de varios de los mejores ingenieros informáticos del mundo.

Además, como veremos, la idea ni siquiera era original: solo se trataba de un concepto bien conocido por los matemáticos, una variante de la medida de centralidad basada en el “vector propio” (eigenvalue), para el cual muchos científicos habían ya desarrollado métodos de cálculo y aplicaciones prácticas.



No hay comentarios:

Publicar un comentario

Gracias por participar. Deje su comentario a continuación.