martes, 7 de junio de 2016

Aplicaciones del álgebra a la informática e internet

Google es una mega-estructura que basa su funcionamiento en algoritmos, matrices, espacios y sub-espacios vectoriales, todo lo referido con el algebra lineal.
Hay más de 1.000 programadores y científicos destinados exclusivamente atareas relacionadas con el buscador web de Google.
Uno de los problemas más importantes a la hora de rastrear la información de la WWW es que las páginas web están en cientos de idiomas diferentes, y que además los webmasters no suelen seguir los estándares a la hora de crear documentos web.
Otro problema es entender las consultas de los usuarios, los cuales suelen utilizar menos de tres palabras por cada búsqueda, lo que complica la tarea. Hace unos meses se publicaron estos datos al respecto: solamente el 26% de los usuarios utilizan cuatro o más términos por búsqueda. Además, hay que recordar que el propio Manber reconocía hace tiempo que una de cuatro búsquedas en Google es inédita, lo que complica aún más la labor de devolver resultados con información útil.
El algoritmo de PageRank se sigue utilizando a día de hoy, pero se ha diluido dentro de un sistema mucho más grande de evaluación de la relevancia de los documentos web. Ahora, además de este parámetro, se tienen en cuenta otros como los modelos del lenguaje (Google procesa ahora las frases que se rastrean, los sinónimos o las palabras mal escritas), o la antigüedad o la frescura del documento web (algunas búsquedas tienen su mejor información en las páginas que se han creado en las últimas horas).
Continuamente se están realizando modificaciones en los algoritmos del buscador, y en concreto en 2007 se lanzaron 450 nuevas mejoras (9 por semana de media).
Se ha implementado recientemente la herramienta de revisión ortográfica (el famoso "Quizás quiso decir") en diferentes idiomas, como el catalán, el serbio o el ucraniano.
Google ha creado una red de personas en varios países del mundo, que se encargan de "ofrecer feedback a Google", en referencia al laboratorio 'Rater Hub', en el que se contrata a usuarios de Internet (también de España) para que entrenen a los algoritmos de búsqueda.
Google cuenta también con un importante grupo de voluntarios dentro de la compañía que les ayuda a mejorar las búsquedas en diferentes idiomas.
Muy pocos usuarios se leen las páginas de ayuda del buscador web, y son mayoría los que desconocen todas las posibilidades que ofrece. Por ello, nos encontramos cada vez más con información proveniente de otras herramientas de Google dentro de los resultados del buscador web. Es lo que se conoce como 'Google Universal Search', presentado por el propio Manber hace justo un año.
Hay diferentes grupos de trabajo dentro del Departamento de Calidad del buscador web, y dos de ellos están relacionados con los webmasters. Uno de ellos, para detectar cualquier intento de engaño por parte de algunos de ellos(el de 'Web Spam'), y otro para abrir un canal de comunicación con Google (el de 'Google Webmasters Tools').
Como punto de partida, para Google fueron las matrices, así como los teoremas básicos; claro que después se amplió para dar abasto a los millones de usuarios, como para el doble en fuentes de información. Pero esto nos hace notar que evidentemente el Algebra Lineal es quien dio origen a esta mega-herramienta; convirtiéndola en una de las mejores aplicaciones del Algebra Lineal en el mundo. Son tantas las aplicaciones que no se pueden contar; una popular es la descomposición SVD (singular value decomposition) en la cual tienes una matriz (también visto como un espacio vectorial) y puedes obtener una representación de esta matriz en factor de tres matrices:
MATRIZ A = U * S * V
La singularidad está en que S es diagonal y te entrega los valores propios de la matriz, V contiene los vectores propios asociados a la matriz S, y U*V = matriz de identidad
La SVD se usa para procesamiento de señales. Aparte de la SVD está la descomposición QR, ALU, PALU, etc., que son procesos interactivos con características similares. Como puedes darte cuenta, la parte lineal está en encontrar los valores y vectores propios que generan el espacio de la matriz original. Otra aplicación y que se usa todo el tiempo es el page rank de google (antes mencionada y explicada). Básicamente es una matriz gigante la cual se genera mediante un proceso de Markov (tiene probabilidades asociadas a ella y cumple con algunos requisitos). Lo que hacen estos “buscadores” es sacarle el vector propio principal con métodos iterativos (como el power iteration) para calcular el ranking en las búsquedas. También están las transformaciones de Wavelets que te permiten enviar señales acortándolas y alargándolas, permitiendo el ahorro en el bus de envío, sin pérdida de generalidad y calidad.
La transformada de óndula (frecuentemente también transformada wavelet) es un tipo especial de transformada de Fourier que representa una señal en términos de versiones trasladadas y dilatadas de una onda finita (denominada óndula madre). La teoría de óndulas está relacionada con campos muy variados. Todas las transformaciones de óndulas pueden ser consideradas formas de representación en tiempo-frecuencia y, por tanto, están relacionadas con el análisis armónico. Las transformadas de óndulas son un caso particular de filtro de respuesta finita al impulso. Las óndulas, continuas o discretas, como cualquier función L2, responden al principio de incertidumbre de Hilbert (conocido por los físicos como principio de incertidumbre de Heisenberg), el cual establece que producto de las dispersiones obtenidas en el espacio directo y en el de las frecuencias no pueden ser más pequeñas que una cierta constante geométrica. En el caso de las óndulas discretas, la dispersión de los coeficientes se ha de medir de acuerdo con la norma l2 (norma 2 de series numerables).

Publicado por:  Miguel Ángel Meseguer Gómez

No hay comentarios:

Publicar un comentario