OmniRetrieval: унифицированный поиск по гетерогенным источникам знаний

Аннотация

Реальные информационные потребности требуют доступа к структурно разнородным источникам знаний — от неструктурированного текста и реляционных таблиц до графов знаний и графов свойств. Однако существующие ретриверы работают только с одним источником за раз, используя фиксированный язык запросов, оставляя более широкий ландшафт доступных знаний фрагментированным из-за несовместимых интерфейсов. Естественная попытка унификации свела бы эти источники в единое пространство, но это стирает структурные возможности (такие как схемы, онтологии, композиционные операторы), которые придают каждому источнику выразительную силу. Таким образом, эффективный поиск по разнородным знаниям требует не гомогенизации, а всеобъемлющего уровня, который взаимодействует с каждым источником на его собственных условиях. Для достижения этого мы представляем OmniRetrieval — фреймворк, который принимает любой запрос на естественном языке, определяет подходящие источники знаний и направляет запросы на родном для источника языке к соответствующим исполнительным движкам. В обширном бенчмарке, охватывающем 13 наборов данных и 309 различных баз знаний, относящихся к текстовым, реляционным и графовым источникам, OmniRetrieval превосходит однобашенные базовые модели, демонстрируя, что может служить универсальным интерфейсом для гетерогенных источников, сохраняя при этом структурные различия, которые делают каждый источник ценным.

English

Real-world information needs require access to structurally diverse knowledge sources, from unstructured text and relational tables to knowledge graphs and property graphs. Existing retrievers, however, operate over one source at a time under a fixed query language, leaving the broader landscape of available knowledge fragmented behind incompatible interfaces. A natural attempt at unification would collapse these sources into a shared space, but this erases the structural affordances (such as schemas, ontologies, compositional operators) that give each source its expressive power. Effective retrieval over diverse knowledge, therefore, requires not homogenization but an overarching layer that meets each source on its own terms. To achieve this, we present OmniRetrieval, a framework that takes any natural-language query, identifies appropriate knowledge sources, and dispatches source-native queries to their native execution engines. Across an extensive benchmark spanning 13 datasets and 309 distinct knowledge bases over text, relational, and graph-structured sources, OmniRetrieval exceeds single-source baselines, demonstrating that it can serve as a general-purpose interface to the heterogeneous sources while preserving the structural distinctions that make each source valuable.