ChatPaper.aiChatPaper

Integrazione dei Dati Testuali

Text Data Integration

March 28, 2026
Autori: Md Ataur Rahman, Dimitris Sacharidis, Oscar Romero, Sergi Nadal
cs.AI

Abstract

I dati si presentano in molte forme. Da una prospettiva superficiale, possono essere considerati come strutturati (ad esempio, come relazioni, coppie chiave-valore) o non strutturati (ad esempio, testo, immagini). Finora, le macchine sono state abbastanza brave nell'elaborare e ragionare su dati strutturati che seguono uno schema preciso. Tuttavia, l'eterogeneità dei dati rappresenta una sfida significativa per quanto riguarda la capacità di archiviare ed elaborare in modo significativo diverse categorie di dati. L'Integrazione dei Dati, una parte cruciale della pipeline di data engineering, affronta questo problema combinando fonti di dati disparate e fornendo un accesso unificato ai dati agli utenti finali. Fino ad ora, la maggior parte dei sistemi di integrazione dati si è basata principalmente sulla combinazione di sole fonti di dati strutturati. Tuttavia, anche i dati non strutturati (noti come testo libero) contengono una pletora di conoscenze in attesa di essere utilizzate. Pertanto, in questo capitolo, sosteniamo innanzitutto l'integrazione dei dati testuali, per poi presentarne le sfide, lo stato dell'arte e i problemi aperti.
English
Data comes in many forms. From a shallow perspective, they can be viewed as being either in structured (e.g., as a relation, as key-value pairs) or unstructured (e.g., text, image) formats. So far, machines have been fairly good at processing and reasoning over structured data that follows a precise schema. However, the heterogeneity of data poses a significant challenge on how well diverse categories of data can be meaningfully stored and processed. Data Integration, a crucial part of the data engineering pipeline, addresses this by combining disparate data sources and providing unified data access to end-users. Until now, most data integration systems have leaned on only combining structured data sources. Nevertheless, unstructured data (a.k.a. free text) also contains a plethora of knowledge waiting to be utilized. Thus, in this chapter, we firstly make the case for the integration of textual data, to later present its challenges, state of the art and open problems.
PDF33April 1, 2026