Quanto Raciocínio os Modelos Aumentados por Recuperação Adicionam Além dos LLMs? Um Framework de Avaliação para Inferência Multi-Hop sobre Conhecimento Híbrido
How Much Reasoning Do Retrieval-Augmented Models Add beyond LLMs? A Benchmarking Framework for Multi-Hop Inference over Hybrid Knowledge
February 10, 2026
Autores: Junhong Lin, Bing Zhang, Song Wang, Ziyan Liu, Dan Gutfreund, Julian Shun, Yada Zhu
cs.AI
Resumo
Os grandes modelos de linguagem (LLMs) continuam a enfrentar dificuldades com questões que exigem conhecimento intensivo, informações atualizadas e raciocínio multi-hop. Aumentar os LLMs com conhecimento externo híbrido, como texto não estruturado e grafos de conhecimento estruturados, oferece uma alternativa promissora ao dispendioso pré-treinamento contínuo. Dessa forma, uma avaliação confiável das suas capacidades de recuperação e raciocínio torna-se crítica. No entanto, muitos benchmarks existentes sobrepõem-se cada vez mais com os dados de pré-treinamento dos LLMs, o que significa que as respostas ou o conhecimento de suporte podem já estar codificados nos parâmetros do modelo, dificultando a distinção entre recuperação e raciocínio genuínos e a recordação paramétrica. Apresentamos o HybridRAG-Bench, uma estrutura para construir benchmarks que avaliam o raciocínio multi-hop e intensivo em recuperação sobre conhecimento híbrido. O HybridRAG-Bench acopla automaticamente representações de texto não estruturado e de grafos de conhecimento estruturados derivados de literatura científica recente no arXiv, e gera pares pergunta-resposta com conhecimento intensivo baseados em caminhos de raciocínio explícitos. A estrutura suporta uma seleção flexível de domínio e período temporal, permitindo uma avaliação personalizável e consciente da contaminação à medida que os modelos e o conhecimento evoluem. Experiências em três domínios (inteligência artificial, governança e políticas, e bioinformática) demonstram que o HybridRAG-Bench recompensa a recuperação e o raciocínio genuínos em vez da recordação paramétrica, oferecendo um ambiente de teste fundamentado para avaliar sistemas de raciocínio aumentados por conhecimento híbrido. Disponibilizamos o nosso código e dados em github.com/junhongmit/HybridRAG-Bench.
English
Large language models (LLMs) continue to struggle with knowledge-intensive questions that require up-to-date information and multi-hop reasoning. Augmenting LLMs with hybrid external knowledge, such as unstructured text and structured knowledge graphs, offers a promising alternative to costly continual pretraining. As such, reliable evaluation of their retrieval and reasoning capabilities becomes critical. However, many existing benchmarks increasingly overlap with LLM pretraining data, which means answers or supporting knowledge may already be encoded in model parameters, making it difficult to distinguish genuine retrieval and reasoning from parametric recall. We introduce HybridRAG-Bench, a framework for constructing benchmarks to evaluate retrieval-intensive, multi-hop reasoning over hybrid knowledge. HybridRAG-Bench automatically couples unstructured text and structured knowledge graph representations derived from recent scientific literature on arXiv, and generates knowledge-intensive question-answer pairs grounded in explicit reasoning paths. The framework supports flexible domain and time-frame selection, enabling contamination-aware and customizable evaluation as models and knowledge evolve. Experiments across three domains (artificial intelligence, governance and policy, and bioinformatics) demonstrate that HybridRAG-Bench rewards genuine retrieval and reasoning rather than parametric recall, offering a principled testbed for evaluating hybrid knowledge-augmented reasoning systems. We release our code and data at github.com/junhongmit/HybridRAG-Bench.