텍스트 데이터 통합
Text Data Integration
March 28, 2026
저자: Md Ataur Rahman, Dimitris Sacharidis, Oscar Romero, Sergi Nadal
cs.AI
초록
데이터는 다양한 형태로 존재한다. 단순하게 보면 구조화된 데이터(예: 관계형, 키-값 쌍)와 비구조화된 데이터(예: 텍스트, 이미지)로 구분할 수 있다. 지금까지 기계는 정확한 스키마를 따르는 구조화된 데이터의 처리와 추론에 상당히 능숙해져 왔다. 그러나 데이터의 이질성은 다양한 범주의 데이터를 의미 있게 저장하고 처리하는 데 상당한 과제로 작용한다. 데이터 엔지니어링 파이프라인의 핵심 요소인 데이터 통합은 서로 다른 데이터 소스를 결합하고 최종 사용자에게 통합된 데이터 접근을 제공함으로써 이 문제를 해결한다. 현재까지 대부분의 데이터 통합 시스템은 구조화된 데이터 소스만을 결합하는 데 중점을 두어 왔다. 그러나 비구조화된 데이터(즉, 자유 텍스트)에도 활용 가능한 지식이 풍부하게 포함되어 있다. 따라서 이 장에서는 먼저 텍스트 데이터 통합의 필요성을 제기한 후, 그 과제, 최신 동향 및 미해결 문제점을 제시한다.
English
Data comes in many forms. From a shallow perspective, they can be viewed as being either in structured (e.g., as a relation, as key-value pairs) or unstructured (e.g., text, image) formats. So far, machines have been fairly good at processing and reasoning over structured data that follows a precise schema. However, the heterogeneity of data poses a significant challenge on how well diverse categories of data can be meaningfully stored and processed. Data Integration, a crucial part of the data engineering pipeline, addresses this by combining disparate data sources and providing unified data access to end-users. Until now, most data integration systems have leaned on only combining structured data sources. Nevertheless, unstructured data (a.k.a. free text) also contains a plethora of knowledge waiting to be utilized. Thus, in this chapter, we firstly make the case for the integration of textual data, to later present its challenges, state of the art and open problems.