Informaci贸n sobre

Recuperaci贸n de informaci贸n

SIGLA

: INP3420

CAR脕CTER

: M脥NIMO

CR脡DITOS

: 10

PROFESOR

: Olga Acosta

MODULOS

: 2

 

I. DESCRIPCI脫N

 

En este curso se tratar谩n los temas la recuperaci贸n y extracci贸n de la informaci贸n. La recuperaci贸n se refiere a aquellos procesos que permiten obtener y enlistar conjuntos de documentos relevantes obtenidos de grandes repositorios, principalmente de Internet, usando palabras claves o descriptores referidos a alg煤n rasgo particular de tales documentos. La extracci贸n de informaci贸n se enfoca en aquellos procesos dirigidos a la identificaci贸n y obtenci贸n de patrones espec铆ficos de informaci贸n insertos en textos, considerando para ello la combinaci贸n de reglas ling眉铆sticas con m茅todos probabil铆sticos.

 

II. OBJETIVOS 

 

  • Distinguir las diferencias entre recuperaci贸n y extracci贸n de informaci贸n. 
  • Localizar informaci贸n dentro de bases de datos referenciales y textuales, as铆 como otros repositorios similares. 
  • Comprender el funcionamiento de los sistemas de recuperaci贸n y extracci贸n de informaci贸n en repositorios electr贸nicos tanto comerciales como institucionales. 
  • Utilizar m茅todos de recuperaci贸n y extracci贸n en buscadores web. 
  • Evaluar la calidad de los resultados obtenidos, ponderando especialmente la calidad en la precisi贸n y cobertura de los patrones considerados. 
  • Aplicar las estrategias de posicionamiento en motores de b煤squeda para organizar la informaci贸n y lograr una b煤squeda efectiva.

 

III. CONTENIDOS 

 

  • Teor铆as y modelos de recuperaci贸n y extracci贸n de informaci贸n. 
  • M茅tricas de rendimiento en la recuperaci贸n y extracci贸n de informaci贸n: precision & recall (precisi贸n y cobertura)
  • Estrategias y lenguajes de b煤squeda.
  • Representaci贸n de textos: metadatos y lenguajes de marcaci贸n. 
  • Recuperaci贸n de informaci贸n en la web: motores, spiders y crawlers, an谩lisis de enlaces (pagerank).
  • Buscadores, metabuscadores y visualizaci贸n de documentos.
  • Extracci贸n e integraci贸n de informaci贸n: extracci贸n de datos desde textos en
    formato XML.
  • Recuperaci贸n de informaci贸n de datos semi-estructurados.
  • Etiquetado social (tagging). 

 

IV. METODOLOG脥A

  • Clases expositivas
  • Discusi贸n interactiva sobre los temas revisados
  • Pr谩cticas con m贸dulos de Python (NLTK, BeautifulSoup, Gensim, Scipy, etc.) y el sistema Sketch Engine. 

 

V. EVALUACI脫N 

  • Controles
  • Exposici贸n
  • Proyecto final

 

VI. BIBLIOGRAF脥A 

 

  • Baeza-Yates, R., et al. Modern information retrieval: The concepts and technology behind search. 2nd Edition. ACM Press Books. Addison-Wesley Professional, 2011.
  • Barnbrook, Geoff, et al. Meaningful Texts: The Extraction of Semantic Information from Monolingual and Multilingual Corpora. London/New York, Continuum, 2005.
  • Chowdhury, G. ntroduction to modern information retrieval. 2nd ed. Oxford, Oxford University Press, 2003.
  • Frakes, W.B., et al. Information retrieval: data structures and algorithms. Englewood Cliffs, NJ., Prentice-Hall, 1992.
  • Jackson, Peter, et al. Natural Language Processing for Online Applications: Text Retrieval, Extraction and Categorization. Amsterdam/Philadelphia, John Benjamins, 2002. 
Pontificia Universidad Cat贸lica de Chile - Escuela de Ingenier铆a UC - Vicu帽a Mackenna 4860 - Edificio San Agust铆n, 4to. piso - Campus San Joaqu铆n, Macul - Santiago - Chile
Pol铆ticas de privacidad | Mapa del sitio
Optimizado para: Explorer 8.0, Firefox 3.6.17, Chrome 10, Safari 4.1, Opera 11.10 贸 superiores