OmniRetrieval: Recuperación unificada a través de fuentes de conocimiento heterogéneas

Resumen

Las necesidades de información del mundo real requieren acceso a fuentes de conocimiento estructuralmente diversas, desde texto no estructurado y tablas relacionales hasta grafos de conocimiento y grafos de propiedades. Sin embargo, los recuperadores existentes operan sobre una fuente a la vez bajo un lenguaje de consulta fijo, dejando el panorama más amplio del conocimiento disponible fragmentado tras interfaces incompatibles. Un intento natural de unificación colapsaría estas fuentes en un espacio compartido, pero esto elimina las capacidades estructurales (como esquemas, ontologías, operadores composicionales) que otorgan a cada fuente su poder expresivo. Por lo tanto, la recuperación efectiva sobre conocimiento diverso no requiere homogeneización, sino una capa global que aborde cada fuente en sus propios términos. Para lograr esto, presentamos OmniRetrieval, un marco que toma cualquier consulta en lenguaje natural, identifica las fuentes de conocimiento apropiadas y envía consultas nativas a sus motores de ejecución originales. En un extenso punto de referencia que abarca 13 conjuntos de datos y 309 bases de conocimiento distintas sobre fuentes de texto, relacionales y estructuradas en grafos, OmniRetrieval supera las líneas base de una sola fuente, demostrando que puede servir como una interfaz de propósito general para fuentes heterogéneas, preservando al mismo tiempo las diferencias estructurales que hacen que cada fuente sea valiosa.

English

Real-world information needs require access to structurally diverse knowledge sources, from unstructured text and relational tables to knowledge graphs and property graphs. Existing retrievers, however, operate over one source at a time under a fixed query language, leaving the broader landscape of available knowledge fragmented behind incompatible interfaces. A natural attempt at unification would collapse these sources into a shared space, but this erases the structural affordances (such as schemas, ontologies, compositional operators) that give each source its expressive power. Effective retrieval over diverse knowledge, therefore, requires not homogenization but an overarching layer that meets each source on its own terms. To achieve this, we present OmniRetrieval, a framework that takes any natural-language query, identifies appropriate knowledge sources, and dispatches source-native queries to their native execution engines. Across an extensive benchmark spanning 13 datasets and 309 distinct knowledge bases over text, relational, and graph-structured sources, OmniRetrieval exceeds single-source baselines, demonstrating that it can serve as a general-purpose interface to the heterogeneous sources while preserving the structural distinctions that make each source valuable.