Google
es una mega-estructura que basa su funcionamiento en algoritmos,
matrices, espacios y sub-espacios vectoriales, todo
lo referido con el algebra lineal.
Hay
más de 1.000 programadores y científicos destinados exclusivamente
atareas relacionadas con el buscador web de Google.
Uno
de los problemas más importantes a la hora de rastrear la
información de la WWW
es que las páginas web están en cientos de idiomas diferentes, y
que además los webmasters no suelen seguir los estándares a la hora
de crear documentos web.
Otro
problema es entender las consultas de los usuarios, los cuales
suelen utilizar
menos de tres palabras por cada búsqueda, lo que complica la
tarea. Hace
unos meses se publicaron estos datos al respecto: solamente el 26% de
los usuarios utilizan cuatro o más términos por búsqueda. Además,
hay que recordar que el propio Manber reconocía hace tiempo que una
de cuatro búsquedas en Google es inédita, lo que complica aún
más la labor de devolver resultados
con información útil.
El
algoritmo de PageRank se sigue utilizando a día de hoy, pero se ha
diluido dentro de un sistema mucho más grande de evaluación de la
relevancia de los documentos web. Ahora, además de este parámetro,
se tienen en cuenta otros como los modelos del lenguaje (Google
procesa ahora las frases que se rastrean,
los sinónimos o las palabras mal escritas), o la antigüedad o
la frescura
del documento web (algunas búsquedas tienen su mejor información en
las páginas que se han creado en las últimas horas).
Continuamente
se están realizando modificaciones en los algoritmos del buscador,
y en concreto en 2007 se lanzaron 450 nuevas mejoras (9 por semana
de media).
Se
ha implementado recientemente la herramienta de revisión ortográfica
(el famoso "Quizás quiso decir") en diferentes idiomas,
como el catalán, el serbio o el ucraniano.
Google
ha creado una red de personas en varios países del mundo, que
se encargan
de "ofrecer feedback a Google", en referencia al
laboratorio 'Rater Hub', en el que se contrata a usuarios de
Internet (también de España) para que entrenen a los
algoritmos de búsqueda.
Google
cuenta también con un importante grupo de voluntarios dentro de la
compañía que les ayuda a mejorar las búsquedas en diferentes
idiomas.
Muy
pocos usuarios se leen las páginas de ayuda del buscador web, y
son mayoría
los que desconocen todas las posibilidades que ofrece. Por ello, nos
encontramos cada vez más con información proveniente de otras
herramientas de Google dentro de los resultados del buscador web. Es
lo que se conoce como 'Google Universal Search', presentado por el
propio Manber hace justo un año.
Hay
diferentes grupos de trabajo dentro del Departamento de Calidad
del buscador
web, y dos de ellos están relacionados con los webmasters. Uno
de ellos,
para detectar cualquier intento de engaño por parte de algunos de
ellos(el de 'Web Spam'), y otro para abrir un canal de comunicación
con Google (el de
'Google Webmasters Tools').
Como
punto de partida, para Google
fueron las matrices, así como los teoremas básicos; claro que
después se amplió para dar abasto a los millones de usuarios,
como para el doble en fuentes
de información. Pero esto nos hace notar que evidentemente
el Algebra
Lineal es quien dio origen a esta mega-herramienta; convirtiéndola
en una
de las mejores aplicaciones del Algebra Lineal en el mundo. Son
tantas las aplicaciones que no se pueden contar; una popular es la
descomposición SVD (singular value decomposition) en la cual tienes
una matriz (también visto como un espacio vectorial) y puedes
obtener una representación de esta matriz en factor de tres
matrices:
MATRIZ
A = U * S * V
La
singularidad está en que S es diagonal y te entrega los valores
propios de la matriz, V
contiene los vectores propios asociados a la matriz S, y U*V = matriz
de identidad
La
SVD se usa para procesamiento de señales. Aparte de la SVD está
la descomposición QR, ALU, PALU, etc., que son procesos interactivos
con características similares. Como puedes darte cuenta, la parte
lineal está en
encontrar los valores y vectores propios que generan el espacio de la
matriz original. Otra
aplicación y que se usa todo el tiempo es el page rank
de google (antes mencionada y explicada). Básicamente es
una matriz gigante la cual se genera mediante un proceso de
Markov (tiene probabilidades asociadas a ella y cumple con algunos
requisitos). Lo que hacen estos “buscadores” es sacarle el vector
propio principal
con métodos iterativos (como el power iteration) para calcular el
ranking en las búsquedas. También
están las transformaciones de Wavelets que te permiten enviar
señales acortándolas
y alargándolas, permitiendo el ahorro en el bus de envío, sin
pérdida de generalidad y calidad.
La
transformada de óndula (frecuentemente también
transformada wavelet) es
un tipo especial
de transformada de Fourier que representa una señal en
términos de versiones
trasladadas y dilatadas de una onda finita (denominada óndula
madre). La teoría de óndulas está relacionada con campos muy
variados. Todas las transformaciones de óndulas pueden ser
consideradas formas de representación en tiempo-frecuencia
y, por tanto, están relacionadas con el análisis armónico.
Las transformadas de óndulas son un caso particular de filtro
de respuesta finita al impulso. Las óndulas, continuas o
discretas, como cualquier función L2, responden al principio
de incertidumbre de Hilbert (conocido por los físicos
como principio de incertidumbre de Heisenberg),
el cual establece que producto de las dispersiones obtenidas
en el espacio directo y en el de las frecuencias no pueden ser más
pequeñas que una cierta constante geométrica. En el caso de las
óndulas discretas, la dispersión de los coeficientes se ha de medir
de acuerdo con la norma l2 (norma 2 de series numerables).
Publicado por: Miguel Ángel Meseguer Gómez
No hay comentarios:
Publicar un comentario