ChatPaper.aiChatPaper

Textdatenintegration

Text Data Integration

March 28, 2026
Autoren: Md Ataur Rahman, Dimitris Sacharidis, Oscar Romero, Sergi Nadal
cs.AI

Zusammenfassung

Daten liegen in vielen Formen vor. Aus einer oberflächlichen Betrachtung können sie entweder als strukturiert (z.B. als Relation, als Schlüssel-Wert-Paare) oder als unstrukturiert (z.B. Text, Bild) angesehen werden. Bislang waren Maschinen recht gut darin, strukturierte Daten mit präzisem Schema zu verarbeiten und darüber zu schlussfolgern. Die Heterogenität der Daten stellt jedoch eine erhebliche Herausforderung dar, wie gut verschiedene Datenkategorien sinnvoll gespeichert und verarbeitet werden können. Datenintegration, ein entscheidender Teil der Datenverarbeitungspipeline, begegnet diesem Problem, indem sie unterschiedliche Datenquellen kombiniert und einen einheitlichen Datenzugriff für Endnutzer bereitstellt. Bislang haben sich die meisten Datenintegrationssysteme darauf konzentriert, nur strukturierte Datenquellen zu kombinieren. Dennoch enthalten auch unstrukturierte Daten (auch Freitext genannt) eine Fülle von Wissen, das es zu nutzen gilt. Daher machen wir in diesem Kapitel zunächst den Fall für die Integration von Textdaten, um anschließend deren Herausforderungen, den aktuellen Stand der Technik und offene Probleme darzulegen.
English
Data comes in many forms. From a shallow perspective, they can be viewed as being either in structured (e.g., as a relation, as key-value pairs) or unstructured (e.g., text, image) formats. So far, machines have been fairly good at processing and reasoning over structured data that follows a precise schema. However, the heterogeneity of data poses a significant challenge on how well diverse categories of data can be meaningfully stored and processed. Data Integration, a crucial part of the data engineering pipeline, addresses this by combining disparate data sources and providing unified data access to end-users. Until now, most data integration systems have leaned on only combining structured data sources. Nevertheless, unstructured data (a.k.a. free text) also contains a plethora of knowledge waiting to be utilized. Thus, in this chapter, we firstly make the case for the integration of textual data, to later present its challenges, state of the art and open problems.
PDF12April 1, 2026