Tekstgegevensintegratie
Text Data Integration
March 28, 2026
Auteurs: Md Ataur Rahman, Dimitris Sacharidis, Oscar Romero, Sergi Nadal
cs.AI
Samenvatting
Gegevens bestaan in vele vormen. Vanuit een oppervlakkig perspectief kunnen ze worden ingedeeld als gestructureerd (bijvoorbeeld als een relatie, als sleutel-waardeparen) of ongestructureerd (bijvoorbeeld tekst, afbeeldingen). Tot nu toe zijn machines redelijk goed in staat geweest om gestructureerde gegevens met een precies schema te verwerken en te analyseren. De heterogeniteit van gegevens vormt echter een aanzienlijke uitdaging voor de zinvolle opslag en verwerking van uiteenlopende gegevenscategorieën. Dataintegratie, een cruciaal onderdeel van de data-engineeringpijplijn, lost dit op door verschillende gegevensbronnen te combineren en eindgebruikers uniforme gegevenstoegang te bieden. Tot dusver hebben de meeste dataintegratiesystemen zich voornamelijk gericht op het combineren van gestructureerde gegevensbronnen. Niettemin bevatten ongestructureerde gegevens (ook wel vrije tekst genoemd) eveneens een schat aan kennis die kan worden benut. Daarom beargumenteren we in dit hoofdstuk eerst de integratie van tekstuele gegevens, om vervolgens de uitdagingen, de stand van zaken en openstaande problemen te presenteren.
English
Data comes in many forms. From a shallow perspective, they can be viewed as being either in structured (e.g., as a relation, as key-value pairs) or unstructured (e.g., text, image) formats. So far, machines have been fairly good at processing and reasoning over structured data that follows a precise schema. However, the heterogeneity of data poses a significant challenge on how well diverse categories of data can be meaningfully stored and processed. Data Integration, a crucial part of the data engineering pipeline, addresses this by combining disparate data sources and providing unified data access to end-users. Until now, most data integration systems have leaned on only combining structured data sources. Nevertheless, unstructured data (a.k.a. free text) also contains a plethora of knowledge waiting to be utilized. Thus, in this chapter, we firstly make the case for the integration of textual data, to later present its challenges, state of the art and open problems.