miércoles, 16 de abril de 2014


Caso 5 – Recuperación de la información



En el apartado anterior del blog, estuvimos hablando del funcionamiento de los buscadores, así como algunas técnicas que os ayudarán a buscar la información que deseéis en la web. En resumen, aprendimos que los buscadores nos muestran en la pantalla de nuestros dispositivos los resultados más aproximados a las palabras que hemos escrito en su barra de búsqueda. A priori puede parecer muy sencillo el funcionamiento de los buscadores, aunque seguro que sospecháis que esto no es del todo cierto. Entonces… ¿Cómo funcionan los buscadores? ¿Qué es lo que hacen para mostrarnos las web en nuestros dispositivos en pocos segundos?

En este apartado, intentaré responderos a estas cuestiones, centrando la importancia en el proceso que utilizan los buscadores para “coger la información de la red” y mostrarla en nuestro equipo. Este proceso se conoce como recuperación de la información. Antes de empezar a trabajar este concepto, sería recomendable definir dicho concepto de la mano de un profesional en este campo.

¿Cómo recuperamos información?
¿Qué es la recuperación de la información? Como dice SALTON, G. 1989. Automatic Text Processing: The Transformation, Analysis, and Retrieval of Information by Computer. Addison-Wesley: “Un sistema de recuperación de información procesa archivos de registros y peticiones de información, e identifica y recupera de los archivos ciertos registros en respuesta a las peticiones de información”.

Este concepto y/o proceso puede resultar muy complejo de entender, yo mismo he tenido dificultades para lograr comprender este proceso. Por eso, he decidido utilizar una estrategia sencilla, que utilizamos habitualmente en el campo de la enseñanza, para lograr enseñaros este proceso de manera fácil y amena.

Para ello voy a utilizar el método deductivo, que consiste en explicar un conocimiento partiendo de sus aspectos más generales para llegar a aspectos más específicos. Partiré de algunos ejemplos muy simples, que poco tienen que ver con la informática, para que “visualicéis” el concepto de recuperación de información, hasta llegar a aspectos más técnicos de los métodos de recuperación. 


¿Qué se entiende por “recuperar información”?

Vamos a utilizar la imaginación un momento, pongamos que tenemos en nuestra casa una gran estantería que en su interior hay muchos cajones con cartelitos. En cada cartel del cajón aparece el nombre de los objetos que habrá en su interior. Imaginemos que nos piden que cojamos un vaso. ¿Qué es lo que haríamos, teniendo en cuenta que no sabemos su localización? Muy sencillo, habríamos el armario, buscaríamos en los carteles el nombre de vasos, abriríamos su cajón correspondiente y obtendríamos nuestro preciado objeto.


La finalidad de este simple ejemplo es enseñaros el concepto que vamos a trabajar con detalle más adelante. Con este ejemplo, hemos aprendido que “recuperar” consiste en buscar objetos que teníamos almacenados en un sitio para  traerlos de vuelta con nosotros.

Ahora, vamos a extrapolar el ejemplo anterior en el “mundo” informático. Que en cierto modo, si lo vemos de un modo muy general, no es tan diferente. De momento nos vamos a olvidar de Internet, de bases de datos, de buscadores,  etc., donde la cosa se complica bastante,  y vamos a pensar solamente en el sistema que utiliza nuestro ordenador para guardar archivos, así como sus buscadores propios.

Sistemas de carpetas en Linux
Nuestro ordenador utiliza un sistema de carpetas y subcarpetas (suponiendo que hablamos de Windows o Ubuntu, desconozco si en otros sistemas operativos este sistema es similar) para guardar nuestras fotos, música, vídeos y documentos. Partiendo del ejemplo anterior, tenemos nuestro armario, llamado “C”, y dentro de él encontramos más armarios llamados “vídeos”, “fotos”, “documentos” y “música”, y dentro de música encontramos cajones con nombres de grupos musicales.

Nuestro ordenador funciona igual manera para guardar los archivos, aunque en este caso, somos nosotros los que decidimos el nombre de cada carpeta (salvo las carpetas especiales pertenecientes al sistema operativo). Por tanto, si utilizamos nuestro buscador (en caso de Windows con pulsa las teclas: Windows + f) y escribimos un nombre de carpeta o archivo. El ordenador buscará en el disco duro y nos mostrará los archivos que tengan dicho nombre y nos traerá los resultados recuperados.

Hasta aquí parece fácil de entender…  ¿no? De momento parece bastante sencillo ya que solo estamos trabajando en un disco duro (un mismo lugar), ahora bien, cuando utilizamos un buscador web, ¿Qué es lo que realmente hace?


¿Cómo funciona la recuperación de la información en la red?

En este caso el proceso es más complejo, ya que los archivos que buscamos no se encuentran en un simple disco duro como sucedía anteriormente, sino en millones y millones de discos duros que hay en los ordenadores personales y servidores conectados a la red.

Servidores donde se almacena
la información de las Webs
Dicho de manera más sencilla, cuando buscamos algún dato o información en Internet se producen los siguientes pasos:  se escriben en el recuadro del buscador una serie de palabras; el ordenador se conectará a los servidores donde se aloje el buscador y por medio de una serie de técnicas y métodos (que más adelante hablaremos) se compararán los datos que hemos introducido en el buscador con los datos alojados en los servidores para ofrecernos una adecuada respuesta; una vez seleccionados los datos más probables se envían por la red hasta nuestro dispositivo. Todo este proceso se realiza en pocos segundos.

¿Pueden los ordenadores almacenar tantos datos en sus servidores que permitan comparar nuestras búsquedas? Sería muy laborioso para las empresas almacenar tantos datos, por tanto, lo que hacen habitualmente es almacenar sus datos en bases de datos para realizar más sencillas las búsquedas. Este dibujo puede ilustraros el funcionamiento de este proceso. 
Ejemplo de sistema de recuperación con bases de datos

Voy a poneros un ejemplo práctico para que lo entendáis mejor. Imaginemos que queremos averiguar si nuestro número de lotería es acertado. Para ello, entramos en la siguiente web: “http://www.loteriasyapuestas.es/es/loteria-nacional” y escribimos en el recuadro que aparece a la izquierda nuestro número, la serie y la fracción. Esa información es redirigida al servidor donde se alija dicha web. Después, se abre una aplicación en esa web que permite buscar en la base de datos los datos que hemos introducido y ofrecer una respuesta adecuada. Para finalizar, la información  vuelve al servidor de la red y se muestra en la pantalla de nuestro dispositivo.

En esta web aparece de forma muy simplificada el proceso que os acabo de contar:



¿Qué sucede dentro de los buscadores para qué puedan ofrecernos las webs que deseemos?

Como ya conocéis gracias al apartado anterior del blog, los buscadores son herramientas capaces de mostrarlos las webs más adecuadas según nuestra petición de búsqueda. Este proceso no es tan mágico como pueda parecer, lo que realmente ocurre es que los buscadores tienen programadas una serie de técnicas y  estrategias para lograr su cometido. Voy a contaros los pasos que realiza Google para poder ofrecernos sus búsquedas. Esta información la ha expuesto su propia empresa, y en esta web podéis encontrar más información al respecto: “http://aprenderinternet.about.com/od/google/a/Como-funciona-Google.htm


Lo primero que realiza este buscador es un rastreo (o crawling) de muchísimas páginas webs alojadas en la red para organizarlas según sus contenidos y otras características. Después las organiza en un índice (proceso de indexación), donde se encuentran todas las webs listadas, ocupando una cantidad enorme de memoria (se estima que son unos 100 Pentabytes) ordenados según sus características. Por ejemplo, se incluye los denominados “Meta Keywords”, que son las palabras clave que definen una página web.

En el siguiente paso, lo que hace Google es utilizar una serie de algoritmos y fórmulas matemáticas para interpretar nuestra búsqueda y seleccionar los posibles resultados. Dichos algoritmos se encuentran en continuo perfeccionamiento, algunos los podemos utilizar nosotros en nuestras búsquedas, como las funciones de autocompletado o uso de sinónimos y otros tienen que ver con mejorar en su código fuente que no podemos ver directamente. Según el resultado de los algoritmos, se utiliza el índice para obtener las web adecuadas a nuestra consulta, tras haber pasado una serie de factores y filtros.

Por último, se eliminan las páginas webs denominadas SPAM.

Aunque nos faciliten el proceso de búsqueda, los creadores de Google no nos han desvelado su misterio, que reside los algoritmos que utilizan para ofrecernos las webs que deseemos. Dichos algoritmos y métodos no creo que sean relevados al público ya que google perdería su gran “as en la manga”.

Ejemplo de directorio web
Además de los buscadores, hay otras formas de recuperar información de la red: por medio de directorios, que son listas organizadas y estructuradas clasificadas en categorías que permiten acceder a información partiendo de  lo general a lo particular; metabuscadores, que permiten recuperar información de varios motores de búsqueda, si deseáis más información os recomiendo que veáis mi anterior entrada al blog; buscadores selectivos, que recuperan información de bases de datos especificas; agentes inteligentes, son herramientas que permiten localizar información de forma automática tras definir un perfil de búsqueda y una web o base de datos donde lanzarla.


En esta web podéis encontrar más información al respecto sobre métodos, leguajes de búsqueda, técnicas de recuperación, calidad de la recuperación, etc.: http://www.mariapinto.es/e-coms/recu_infor.htm#ri4


¿Qué conclusiones podemos extraer?


Algunas de las conclusiones que se pueden extraer en relación a la recuperación de la información son las siguientes:
  • El proceso de recuperación de información funciona de la siguiente manera: se define lo que vamos a buscar, se seleccionan las herramientas que utilizaremos, se realizan una serie de operaciones o algoritmos y por último, se evalúan los resultados obtenidos.
  • Estos son algunos elementos que se utilizan durante la búsqueda y recuperación de la información: operadores lógicos, uso de paréntesis, truncamiento, formulación de la búsqueda en lenguaje natural, etc. A través de estos elementos el usuario se comunica con el sistema de recuperación.
  • El perfecto motor de búsqueda sería capaz de entender exactamente qué es lo que quieres decir y darte exactamente lo que buscas. Aún falta mucho tiempo para que se consiga dicho propósito.

Estas conclusiones han sido extraídas con ayuda de esta página web: http://www.monografias.com/trabajos84/recuperacion-informacion-internet/recuperacion-informacion-internet2.shtml donde además podéis encontrar más información al respecto.

Las matemáticas están muy
presentes en la recuperación
de la información 
Para finalizar, os voy a recomendar un extenso documento, que podéis descargar desde mi dropbox, donde encontrareis información muy específica sobre los métodos y técnicas de recuperación. Solo recomiendo que leáis dicho documento las personas que os dediquéis a la informática, ya que aparecen términos informáticos y matemáticos muy complejos de entender. Solo he utilizado las primeras hojas de dicho documento para comprender un poco mejor el concepto de recuperación de la información, pero el resto de información no he sido capaz de entenderla bien, de ahí que no haya profundizado mucho en estos aspectos.

Como añadido, dado que en el PDF anterior aparecen cuestiones complejas de entender, os recomiendo también la siguiente página web donde aparecen definidos algunos términos y cuestiones que aparecen en el documento:

No hay comentarios:

Publicar un comentario