OmniRetrieval: 이종 지식 소스 간 통합 검색
OmniRetrieval: Unified Retrieval across Heterogeneous Knowledge Sources
May 28, 2026
저자: Jinheon Baek, Soyeong Jeong, Sangwoo Park, Woongyeong Yeo, Minki Kang, Patara Trirat, Heejun Lee, Sung Ju Hwang
cs.AI
초록
실제 세계의 정보 요구는 구조적으로 다양한 지식 소스(비정형 텍스트, 관계형 테이블, 지식 그래프 및 속성 그래프)에 대한 접근을 필요로 한다. 그러나 기존 검색기는 고정된 쿼리 언어 아래에서 한 번에 하나의 소스만을 대상으로 작동하므로, 사용 가능한 지식의 광범위한 영역이 호환되지 않는 인터페이스 뒤에 단편화되어 있다. 이러한 통합을 위한 자연스러운 시도는 이러한 소스들을 공유 공간으로 압축하는 것이지만, 이는 각 소스에 표현력을 부여하는 구조적 이점(스키마, 온톨로지, 구성 연산자 등)을 지워버린다. 따라서 다양한 지식에 대한 효과적인 검색은 동질화가 아닌, 각 소스를 고유한 방식으로 다루는 포괄적 계층을 필요로 한다. 이를 위해 우리는 OmniRetrieval을 제안한다. 이 프레임워크는 자연어 쿼리를 받아 적절한 지식 소스를 식별하고, 소스 고유의 쿼리를 해당 네이티브 실행 엔진에 전달한다. 텍스트, 관계형, 그래프 구조 소스에 걸친 13개 데이터셋과 309개의 개별 지식 베이스를 포함한 광범위한 벤치마크에서 OmniRetrieval은 단일 소스 기준선을 능가하며, 각 소스를 가치 있게 만드는 구조적 차이를 보존하면서 이질적 소스에 대한 범용 인터페이스 역할을 할 수 있음을 입증한다.
English
Real-world information needs require access to structurally diverse knowledge sources, from unstructured text and relational tables to knowledge graphs and property graphs. Existing retrievers, however, operate over one source at a time under a fixed query language, leaving the broader landscape of available knowledge fragmented behind incompatible interfaces. A natural attempt at unification would collapse these sources into a shared space, but this erases the structural affordances (such as schemas, ontologies, compositional operators) that give each source its expressive power. Effective retrieval over diverse knowledge, therefore, requires not homogenization but an overarching layer that meets each source on its own terms. To achieve this, we present OmniRetrieval, a framework that takes any natural-language query, identifies appropriate knowledge sources, and dispatches source-native queries to their native execution engines. Across an extensive benchmark spanning 13 datasets and 309 distinct knowledge bases over text, relational, and graph-structured sources, OmniRetrieval exceeds single-source baselines, demonstrating that it can serve as a general-purpose interface to the heterogeneous sources while preserving the structural distinctions that make each source valuable.