OmniRetrieval : Recherche unifiée sur des sources de connaissances hétérogènes

Résumé

Les besoins informationnels réels exigent un accès à des sources de connaissances structurellement diverses, allant du texte non structuré et des tables relationnelles aux graphes de connaissances et aux graphes de propriétés. Pourtant, les systèmes de recherche existants opèrent sur une seule source à la fois avec un langage de requête fixe, laissant le paysage plus large des sources disponibles fragmenté derrière des interfaces incompatibles. Une tentative naturelle d'unification consisterait à réduire ces sources à un espace commun, mais cela efface les apports structurels (tels que schémas, ontologies, opérateurs compositionnels) qui confèrent à chaque source sa puissance expressive. Une recherche efficace sur des connaissances diverses nécessite donc non pas une homogénéisation, mais une couche englobante qui s'adapte à chaque source dans son propre langage. Pour y parvenir, nous présentons OmniRetrieval, un cadre qui prend toute requête en langage naturel, identifie les sources de connaissances appropriées et envoie des requêtes natives à leurs moteurs d'exécution respectifs. Sur un vaste banc d'essai couvrant 13 ensembles de données et 309 bases de connaissances distinctes, allant de sources textuelles, relationnelles et structurées en graphes, OmniRetrieval surpasse les références mono-source, démontrant qu'il peut servir d'interface polyvalente aux sources hétérogènes tout en préservant les distinctions structurelles qui font la valeur de chaque source.

English

Real-world information needs require access to structurally diverse knowledge sources, from unstructured text and relational tables to knowledge graphs and property graphs. Existing retrievers, however, operate over one source at a time under a fixed query language, leaving the broader landscape of available knowledge fragmented behind incompatible interfaces. A natural attempt at unification would collapse these sources into a shared space, but this erases the structural affordances (such as schemas, ontologies, compositional operators) that give each source its expressive power. Effective retrieval over diverse knowledge, therefore, requires not homogenization but an overarching layer that meets each source on its own terms. To achieve this, we present OmniRetrieval, a framework that takes any natural-language query, identifies appropriate knowledge sources, and dispatches source-native queries to their native execution engines. Across an extensive benchmark spanning 13 datasets and 309 distinct knowledge bases over text, relational, and graph-structured sources, OmniRetrieval exceeds single-source baselines, demonstrating that it can serve as a general-purpose interface to the heterogeneous sources while preserving the structural distinctions that make each source valuable.