OmniRetrieval: Recuperação Unificada em Fontes de Conhecimento Heterogêneas

Resumo

As necessidades de informação do mundo real exigem acesso a fontes de conhecimento estruturalmente diversas, desde texto não estruturado e tabelas relacionais até grafos de conhecimento e grafos de propriedades. No entanto, os recuperadores existentes operam sobre uma fonte de cada vez, sob uma linguagem de consulta fixa, deixando o panorama mais amplo do conhecimento disponível fragmentado por interfaces incompatíveis. Uma tentativa natural de unificação colapsaria essas fontes em um espaço compartilhado, mas isso elimina as vantagens estruturais (como esquemas, ontologias, operadores composicionais) que conferem a cada fonte seu poder expressivo. Portanto, a recuperação eficaz sobre conhecimentos diversos não exige homogeneização, mas sim uma camada abrangente que atenda cada fonte em seus próprios termos. Para alcançar isso, apresentamos o OmniRetrieval, uma estrutura que recebe qualquer consulta em linguagem natural, identifica as fontes de conhecimento adequadas e despacha consultas nativas da fonte para seus motores de execução nativos. Em um benchmark abrangente que abrange 13 conjuntos de dados e 309 bases de conhecimento distintas sobre fontes textuais, relacionais e estruturadas em grafos, o OmniRetrieval supera as bases de referência de fonte única, demonstrando que pode servir como uma interface de uso geral para fontes heterogêneas, ao mesmo tempo que preserva as distinções estruturais que tornam cada fonte valiosa.

English

Real-world information needs require access to structurally diverse knowledge sources, from unstructured text and relational tables to knowledge graphs and property graphs. Existing retrievers, however, operate over one source at a time under a fixed query language, leaving the broader landscape of available knowledge fragmented behind incompatible interfaces. A natural attempt at unification would collapse these sources into a shared space, but this erases the structural affordances (such as schemas, ontologies, compositional operators) that give each source its expressive power. Effective retrieval over diverse knowledge, therefore, requires not homogenization but an overarching layer that meets each source on its own terms. To achieve this, we present OmniRetrieval, a framework that takes any natural-language query, identifies appropriate knowledge sources, and dispatches source-native queries to their native execution engines. Across an extensive benchmark spanning 13 datasets and 309 distinct knowledge bases over text, relational, and graph-structured sources, OmniRetrieval exceeds single-source baselines, demonstrating that it can serve as a general-purpose interface to the heterogeneous sources while preserving the structural distinctions that make each source valuable.