Dedicado a desarrollar el conocimiento en herramientas de recuperación de información del programa de sistemas de información de la Universidad de La Salle año 2011 Grupo 20, a través de las memorias de clase y fortalecer las habilidades en el manejo de la tecnología de la información.
Buscar este blog
lunes, 16 de mayo de 2011
Memoria de Clase “Recuperación de información Modelos, sistemas y evaluación”
domingo, 8 de mayo de 2011
MEMORIA DE CLASE "SISTEMA DE RECUPERACIÓN DE INFORMACIÓN Y DATOS"
Los SRI de información: la concordancia entre pregunta-respuesta es parcial y normalmente son difíciles de formalizar, la inferencia es inductiva, la relación entre la satisfacción del usuario evidencia un nivel de incertidumbre, el lenguaje de consulta es natural, especificación incompleta, respuesta al error totalmente insensible y subjetiva, rapidez de respuesta depende de la decisión del usuario.
RECUPERACIÓN DE INFORMACIÓN
El fin de la información es ser consultada por la gran mayoría de usuarios posibles con el fin de lograr una respuesta adecuada que satisface las necesidades informacionales de las personas, el usuario al localizar la información determina su relevancia.
Extracción de Información
Es aquella búsqueda manual o automática de palabras, párrafos o trozos de textos que contengan información relevante a una pregunta o respuesta bien estructurada para el usuario, la recuperación de información presenta aspectos estructurados o no de la información por eso es necesario establecer mecanismos de búsqueda adecuados para lograr que las maquinas interpreten lo que deseamos encontrar al momento de buscar, Google es un metabuscador que entiende rápidamente que es lo que el usuario está buscando, a la vez hace correcciones ortográficas o de sintaxis, y establece un ranking de las respuestas, y de la documentación, información o datos que son de importancia según el criterio de búsqueda que haya tenido el usuario en su consulta.
Lenguaje natural humano: se refiere al lenguaje que empleamos a diario los humanos para poder comunicarnos
Ventajas : El usuario lo comprende, pues puede expresar cualquier significado.
Tolerante a fallos.
Desventajas:
No es conciso
Es ambiguo
Es difícil que lo interprete el computador.
Es subjetivo.
Lenguaje natural restringido: presenta terminología controlada es un subconjunto del lenguaje natural, como ejemplo están los tesauros las taxonomías las listas de encabezamiento de materias.
Ventajas:
Restringe las búsquedas, y es más fácil interpretar la información.
Inconvenientes
Se debe determinar la forma de restricción de las búsquedas, pues no facilitaría el acceso a un texto completo o a la información suficiente que necesita el usuario.
Es incomodo en el momento de buscar puesto que no se identifican con el método de búsqueda y el lenguaje de expresión de las búsquedas.
Lenguaje artificial *(Lenguaje Informático): es la información compacta y limitada, está compuesto por vocabulario limitado y por unas reglas sintácticas muy claras que no permiten ambigüedades.
Publicado por: Paola Hernández
Gómez Dueñas, Laureano F. Material de clase: Recuperación de información y de datos consultado: (2011, mayo 8). En línea.
MEMORIA DE CLASE "INDIZACION "
Índices: los índices ayudan a hacer un seguimiento del contenido de los documentos, estos consisten en sustituir el contenido por un conjunto de términos que los representan.
Estructura de un índice: permite realizar operaciones de búsqueda mediante técnicas que comparan los enunciados que han utilizado los usuarios con los términos almacenados en los índices del sistema. Dentro de dicha estructura de índices encontraremos ítems como palabras clave, autor, formato, títulos que identifican los documentos, etc.
Publicado por: Paola Hernández
Gómez Dueñas, Laureano Felipe. Introducción a la recuperación de información clase Nro. 2. “indización”.
MEMORIA DE CLASE “POSICIONAMIENTO DEL BLOG”
· Manipulación concreta
· Denominación de la URL
· Publicación del contenido
· ¿Ese blog pública contenido importante?
· ¿Los enlaces que ese sitio está publicando tienen contenido rico en información?
· Quien tiene control de la información que está recuperando
· Cada cuanto y quien esta detrás del manejo de la pagina web
· Identificar palabras claves dentro de los documentos, para hacer posible
una lista que dará el nivel de relevancia de las consultas, de acuerdo a esas
palabras clave se creara el contenido.
· Es esencial no repetir la información pues esto genera que Google identifique esa información y genere spam.
· El uso inadecuado de las palabras clave, es importante definir cuáles serán y mantenerlas en el tiempo, para posibles recuperaciones.
