ChatPaper.aiChatPaper

OmniRetrieval: 異種知識源を横断する統合検索

OmniRetrieval: Unified Retrieval across Heterogeneous Knowledge Sources

May 28, 2026
著者: Jinheon Baek, Soyeong Jeong, Sangwoo Park, Woongyeong Yeo, Minki Kang, Patara Trirat, Heejun Lee, Sung Ju Hwang
cs.AI

要旨

現実世界の情報要求を満たすためには、非構造化テキストやリレーショナルテーブルから知識グラフ、プロパティグラフに至るまで、構造的に多様な知識ソースへのアクセスが必要となる。しかし、既存の検索器は固定された問い合わせ言語のもとで一度に一つのソースしか扱えず、利用可能な知識の広範な風景は互換性のないインターフェースの背後に断片化されたままである。これらを統合する自然な試みとして、ソースを共通の空間に押し込める方法が考えられるが、それでは各ソースに表現力を与えている構造的利点(スキーマ、オントロジー、合成演算子など)が失われてしまう。したがって、多様な知識に対する効果的な検索には、均質化ではなく、各ソースをその本来の形で扱う包括的な層が必要となる。この目標を達成するために、我々はOmniRetrievalを提案する。これは任意の自然言語クエリを受け取り、適切な知識ソースを特定し、各ソース固有のクエリをネイティブ実行エンジンにディスパッチするフレームワークである。テキスト、リレーショナル、グラフ構造のソースにわたる13のデータセットと309の異なる知識ベースからなる広範なベンチマークにおいて、OmniRetrievalは単一ソースのベースラインを上回り、各ソースの価値を生み出す構造的差異を保持しつつ、異種ソースに対する汎用的インターフェースとして機能することを実証した。
English
Real-world information needs require access to structurally diverse knowledge sources, from unstructured text and relational tables to knowledge graphs and property graphs. Existing retrievers, however, operate over one source at a time under a fixed query language, leaving the broader landscape of available knowledge fragmented behind incompatible interfaces. A natural attempt at unification would collapse these sources into a shared space, but this erases the structural affordances (such as schemas, ontologies, compositional operators) that give each source its expressive power. Effective retrieval over diverse knowledge, therefore, requires not homogenization but an overarching layer that meets each source on its own terms. To achieve this, we present OmniRetrieval, a framework that takes any natural-language query, identifies appropriate knowledge sources, and dispatches source-native queries to their native execution engines. Across an extensive benchmark spanning 13 datasets and 309 distinct knowledge bases over text, relational, and graph-structured sources, OmniRetrieval exceeds single-source baselines, demonstrating that it can serve as a general-purpose interface to the heterogeneous sources while preserving the structural distinctions that make each source valuable.