Integración de Datos Textuales
Text Data Integration
March 28, 2026
Autores: Md Ataur Rahman, Dimitris Sacharidis, Oscar Romero, Sergi Nadal
cs.AI
Resumen
Los datos se presentan en múltiples formas. Desde una perspectiva superficial, pueden clasificarse como estructurados (por ejemplo, como una relación o pares clave-valor) o no estructurados (por ejemplo, texto, imagen). Hasta ahora, las máquinas han sido bastante eficaces para procesar y razonar sobre datos estructurados que siguen un esquema preciso. Sin embargo, la heterogeneidad de los datos plantea un desafío significativo en cuanto a la capacidad de almacenar y procesar de manera significativa diversas categorías de datos. La Integración de Datos, una parte crucial del proceso de ingeniería de datos, aborda este problema combinando fuentes de datos dispares y proporcionando acceso unificado a los datos para los usuarios finales. Hasta la fecha, la mayoría de los sistemas de integración de datos se han centrado principalmente en combinar fuentes de datos estructuradas. No obstante, los datos no estructurados (también conocidos como texto libre) también contienen una plétora de conocimiento esperando ser utilizado. Por lo tanto, en este capítulo, primero argumentamos a favor de la integración de datos textuales, para posteriormente presentar sus desafíos, estado del arte y problemas abiertos.
English
Data comes in many forms. From a shallow perspective, they can be viewed as being either in structured (e.g., as a relation, as key-value pairs) or unstructured (e.g., text, image) formats. So far, machines have been fairly good at processing and reasoning over structured data that follows a precise schema. However, the heterogeneity of data poses a significant challenge on how well diverse categories of data can be meaningfully stored and processed. Data Integration, a crucial part of the data engineering pipeline, addresses this by combining disparate data sources and providing unified data access to end-users. Until now, most data integration systems have leaned on only combining structured data sources. Nevertheless, unstructured data (a.k.a. free text) also contains a plethora of knowledge waiting to be utilized. Thus, in this chapter, we firstly make the case for the integration of textual data, to later present its challenges, state of the art and open problems.