viernes, julio 02, 2004

El método Pagerank de Google

No es que sea ninguna maravilla, ni una tesis en 7 páginas, pero puede servir como punto de inicio para aquellos que quieran comprender el mecanismo de prioridades que el buscador de Google utiliza para mostrar sus resultados.
Hací­a tiempo que querí­a colgar este trabajo que presenté en la asignatura de "Aprendizaje estadí­stico y minerí­a de datos" en la UB. Se trata de un informe sobre como funciona el método Pagerank de Google(TM). Básicamente consiste en el concepto de que todas los webs de la www tienen asociada una puntuación, que se reparte entre las demás páginas mediante votaciones. Cada página que contiene un enlace a otra página, está ejerciendo una votación sobre esta última, perdiendo algo de su Pagerank la primera.
No es tan mágico como que la materia ni se crea ni se destruye, pero en este informe comento algún truco que un diseñador de sitios webs deberí­a conocer.

Descarga el Informe: El método Pagerank de Google(TM)
(PDF)


ACTUALIZACIÓN: (10/12/2006)

El centro de asistencia para webmasters de google, ofrece mucha información sobre como funciona el sistema de rastreo de google, y presenta varios recursos y consejos para mejorar tu ranking y para conocer como google interactúa con tu sitio web.

3 comentarios:

Anónimo dijo...

RockBirra: Jo era allà el dia aquell de la presentació!! ;-)

Gran presentació, i gran treball! Fins aviat bon home!! ;-)

mendelevo dijo...

hola, un saludo:
he leido con fruición y unas grandes ganas de aprender tu artículo sobre el pagerank de google que me parece muy interesante y bien documentado, pero hay algunas cosas que no logro llegar a comprender, es como si no llegase a alcanzar la idea. Me explico, en el capítulo 3 "Enlaces Internos", en los conceptos dices: "Una página sin enlaces del exterior (de otros sites), tiene un PR máximo de 1" del mismo modo, en el capítulo 2 "Cómo se calcula el PR"; cuando explicas el modo de calcularlo por medio de la fórmula, pones unos ejemplos en los que indicas que no importa que valor inicial puedan tener las páginas para calcular el PR, siempre se va a converger, despues de un número indeterminado de iteraciones en un valor, que como máximo va a ser 1. Incidiendo en lo mismo en el capítulo 3, en el ejemplo (i), vuelves a decir "El PR máximo de un sitio es la suma del PR del sitio. Si tiene tres páginas, el máximo valor va a ser 3."
Hasta aquí todo correcto, pero en el cálculo del ejemplo (iv) "Expimiendo el PR 4", al hacer los cálculos llegamos a que el valor del PR de una página individual, después de un número de iteraciones y en ausencia de enlaces externos es mayor que 1 y aunque la suma total del PR del sitio no pasa de 3 la situación contradice las conclusiones a las que se había llegado en los apartados anteriores. ¿En que me estoy equivocando? ¿pueden las páginas individuales superar el PR de 1 mientras la media del PR de todas las páginas del sitio no pase de 1?
muchas gracias por todo y perdona las molestias.
de nuevo un saludo de mendelevo.

Fonsito dijo...

Ante todo... no me esperaba para nada que alguien pudiese llegar a leer completamente mi artículo. :-P
Es todo un orgullo, sinceramente.

Ahora bien, respecto a tu pregunta, debo de revisar un poco el artículo. Date cuenta que hace casi 3 años que lo escribí :-P.

En cuanto tenga una contestación (quizá exista una errata por mi parte, o algún fallo de redacción o contexto), te la haré saber posteando un comentario aquí mismo.

Un saludo, y gracias por tu interés.