OmniRetrieval: Einheitliches Retrieval über heterogene Wissensquellen hinweg

Zusammenfassung

Reale Informationsbedürfnisse erfordern Zugang zu strukturell vielfältigen Wissensquellen – von unstrukturiertem Text und relationalen Tabellen bis hin zu Wissensgraphen und Eigenschaftsgraphen. Bestehende Retriever operieren jedoch stets nur über eine Quelle gleichzeitig mit einer festgelegten Abfragesprache, sodass die breitere Landschaft verfügbaren Wissens hinter inkompatiblen Schnittstellen fragmentiert bleibt. Ein naheliegender Versuch der Vereinheitlichung bestünde darin, diese Quellen in einen gemeinsamen Raum zu überführen – doch dies löscht die strukturellen Gegebenheiten (wie Schemata, Ontologien, kompositionale Operatoren) aus, die jeder Quelle ihre Ausdruckskraft verleihen. Effektives Retrieval über vielfältiges Wissen erfordert daher keine Homogenisierung, sondern eine übergeordnete Schicht, die jede Quelle zu ihren eigenen Bedingungen anspricht. Um dies zu erreichen, präsentieren wir OmniRetrieval, ein Framework, das jede natürlichsprachliche Abfrage aufnimmt, geeignete Wissensquellen identifiziert und quellen-native Abfragen an ihre nativen Ausführungs-Engines weiterleitet. Über eine umfangreiche Benchmark mit 13 Datensätzen und 309 verschiedenen Wissensbasen aus textuellen, relationalen und graph-basierten Quellen hinweg übertrifft OmniRetrieval Ein-Quellen-Baselines und zeigt damit, dass es als universelle Schnittstelle zu den heterogenen Quellen dienen kann, während es die strukturellen Unterschiede bewahrt, die jede Quelle wertvoll machen.

English

Real-world information needs require access to structurally diverse knowledge sources, from unstructured text and relational tables to knowledge graphs and property graphs. Existing retrievers, however, operate over one source at a time under a fixed query language, leaving the broader landscape of available knowledge fragmented behind incompatible interfaces. A natural attempt at unification would collapse these sources into a shared space, but this erases the structural affordances (such as schemas, ontologies, compositional operators) that give each source its expressive power. Effective retrieval over diverse knowledge, therefore, requires not homogenization but an overarching layer that meets each source on its own terms. To achieve this, we present OmniRetrieval, a framework that takes any natural-language query, identifies appropriate knowledge sources, and dispatches source-native queries to their native execution engines. Across an extensive benchmark spanning 13 datasets and 309 distinct knowledge bases over text, relational, and graph-structured sources, OmniRetrieval exceeds single-source baselines, demonstrating that it can serve as a general-purpose interface to the heterogeneous sources while preserving the structural distinctions that make each source valuable.