OmniRetrieval: Geünificeerd ophalen over heterogene kennisbronnen

Samenvatting

In realistische informatiebehoeften is toegang nodig tot structureel diverse kennisbronnen, van ongestructureerde tekst en relationele tabellen tot kennisgrafen en eigenschapsgrafen. Bestaande retrievers werken echter over één bron tegelijk onder een vaste querytaal, waardoor het bredere landschap van beschikbare kennis gefragmenteerd blijft achter incompatibele interfaces. Een natuurlijke poging tot unificatie zou deze bronnen in een gedeelde ruimte samenvouwen, maar dit wist de structurele mogelijkheden (zoals schema's, ontologieën, compositionele operatoren) die elke bron zijn expressieve kracht geven. Effectieve retrievale over diverse kennis vereist daarom geen homogenisatie, maar een overkoepelende laag die elke bron op zijn eigen voorwaarden tegemoetkomt. Om dit te bereiken presenteren we OmniRetrieval, een raamwerk dat elke natuurlijke-taalvraag neemt, de juiste kennisbronnen identificeert en brongebonden queries naar hun native uitvoeringsengines stuurt. In een uitgebreide benchmark die 13 datasets en 309 verschillende kennisbanken omvat over tekst-, relationele en grafgestructureerde bronnen, overtreft OmniRetrieval de enkelvoudige-bron baselines, wat aantoont dat het kan dienen als een algemene interface voor de heterogene bronnen, terwijl het de structurele onderscheidingen behoudt die elke bron waardevol maken.

English

Real-world information needs require access to structurally diverse knowledge sources, from unstructured text and relational tables to knowledge graphs and property graphs. Existing retrievers, however, operate over one source at a time under a fixed query language, leaving the broader landscape of available knowledge fragmented behind incompatible interfaces. A natural attempt at unification would collapse these sources into a shared space, but this erases the structural affordances (such as schemas, ontologies, compositional operators) that give each source its expressive power. Effective retrieval over diverse knowledge, therefore, requires not homogenization but an overarching layer that meets each source on its own terms. To achieve this, we present OmniRetrieval, a framework that takes any natural-language query, identifies appropriate knowledge sources, and dispatches source-native queries to their native execution engines. Across an extensive benchmark spanning 13 datasets and 309 distinct knowledge bases over text, relational, and graph-structured sources, OmniRetrieval exceeds single-source baselines, demonstrating that it can serve as a general-purpose interface to the heterogeneous sources while preserving the structural distinctions that make each source valuable.