Intégration des données textuelles

Résumé

Les données se présentent sous de multiples formes. D'un point de vue superficiel, on peut les considérer comme étant soit structurées (par exemple, sous forme de relation, de paires clé-valeur), soit non structurées (par exemple, texte, image). Jusqu'à présent, les machines se sont montrées assez performantes pour traiter et raisonner sur des données structurées suivant un schéma précis. Cependant, l'hétérogénéité des données représente un défi majeur quant à la capacité de stocker et de traiter de manière significative des catégories de données diverses. L'intégration des données, une étape cruciale du processus d'ingénierie des données, répond à ce problème en combinant des sources de données disparates et en fournissant un accès unifié aux données pour les utilisateurs finaux. Jusqu'à présent, la plupart des systèmes d'intégration de données se sont principalement concentrés sur la combinaison de sources de données structurées. Néanmoins, les données non structurées (c'est-à-dire le texte libre) contiennent également une pléthore de connaissances en attente d'utilisation. Ainsi, dans ce chapitre, nous plaidons d'abord en faveur de l'intégration des données textuelles, pour ensuite présenter ses défis, l'état de l'art et les problèmes ouverts.

English

Data comes in many forms. From a shallow perspective, they can be viewed as being either in structured (e.g., as a relation, as key-value pairs) or unstructured (e.g., text, image) formats. So far, machines have been fairly good at processing and reasoning over structured data that follows a precise schema. However, the heterogeneity of data poses a significant challenge on how well diverse categories of data can be meaningfully stored and processed. Data Integration, a crucial part of the data engineering pipeline, addresses this by combining disparate data sources and providing unified data access to end-users. Until now, most data integration systems have leaned on only combining structured data sources. Nevertheless, unstructured data (a.k.a. free text) also contains a plethora of knowledge waiting to be utilized. Thus, in this chapter, we firstly make the case for the integration of textual data, to later present its challenges, state of the art and open problems.

Intégration des données textuelles

Text Data Integration

Résumé

Support