ChatPaper.aiChatPaper

Интеграция текстовых данных

Text Data Integration

March 28, 2026
Авторы: Md Ataur Rahman, Dimitris Sacharidis, Oscar Romero, Sergi Nadal
cs.AI

Аннотация

Данные существуют во множестве форм. На поверхностном уровне их можно рассматривать как структурированные (например, в виде отношений, пар "ключ-значение") или неструктурированные (например, текст, изображения). До сих пор машины были достаточно успешны в обработке и анализе структурированных данных, следующих точной схеме. Однако неоднородность данных создает серьезные трудности для эффективного хранения и обработки разнородных категорий информации. Интеграция данных, являющаяся важнейшей частью конвейера обработки данных, решает эту проблему путем объединения разрозненных источников и предоставления конечным пользователям унифицированного доступа к данным. До настоящего времени большинство систем интеграции данных ориентировались преимущественно на комбинирование структурированных источников. Тем не менее, неструктурированные данные (также известные как свободный текст) также содержат множество знаний, которые ждут своего использования. Таким образом, в этой главе мы сначала обоснуем необходимость интеграции текстовых данных, а затем представим связанные с этим задачи, современное состояние дел и нерешенные проблемы.
English
Data comes in many forms. From a shallow perspective, they can be viewed as being either in structured (e.g., as a relation, as key-value pairs) or unstructured (e.g., text, image) formats. So far, machines have been fairly good at processing and reasoning over structured data that follows a precise schema. However, the heterogeneity of data poses a significant challenge on how well diverse categories of data can be meaningfully stored and processed. Data Integration, a crucial part of the data engineering pipeline, addresses this by combining disparate data sources and providing unified data access to end-users. Until now, most data integration systems have leaned on only combining structured data sources. Nevertheless, unstructured data (a.k.a. free text) also contains a plethora of knowledge waiting to be utilized. Thus, in this chapter, we firstly make the case for the integration of textual data, to later present its challenges, state of the art and open problems.
PDF12April 1, 2026