ChatPaper.aiChatPaper

¿Cuánto razonamiento añaden los modelos aumentados por recuperación más allá de los LLM? Un marco de evaluación comparativa para la inferencia de múltiples saltos sobre conocimiento híbrido

How Much Reasoning Do Retrieval-Augmented Models Add beyond LLMs? A Benchmarking Framework for Multi-Hop Inference over Hybrid Knowledge

February 10, 2026
Autores: Junhong Lin, Bing Zhang, Song Wang, Ziyan Liu, Dan Gutfreund, Julian Shun, Yada Zhu
cs.AI

Resumen

Los grandes modelos de lenguaje (LLM) siguen teniendo dificultades con preguntas que requieren conocimientos intensivos, información actualizada y razonamiento de múltiples saltos. Aumentar los LLM con conocimiento externo híbrido, como texto no estructurado y grafos de conocimiento estructurados, ofrece una alternativa prometedora al costoso preentrenamiento continuo. Por ello, la evaluación fiable de sus capacidades de recuperación y razonamiento se vuelve crítica. Sin embargo, muchos puntos de referencia existentes se solapan cada vez más con los datos de preentrenamiento de los LLM, lo que significa que las respuestas o el conocimiento de apoyo pueden estar ya codificados en los parámetros del modelo, dificultando distinguir la recuperación y el razonamiento genuinos del recuerdo paramétrico. Presentamos HybridRAG-Bench, un marco para construir puntos de referencia que evalúen el razonamiento intensivo en recuperación y de múltiples saltos sobre conocimiento híbrido. HybridRAG-Bench acopla automáticamente representaciones de texto no estructurado y de grafos de conocimiento estructurado derivados de literatura científica reciente en arXiv, y genera pares de preguntas-respuestas de alto contenido knowledge basados en rutas de razonamiento explícitas. El marco admite una selección flexible del dominio y del período temporal, permitiendo una evaluación personalizable y consciente de la contaminación a medida que evolucionan los modelos y el conocimiento. Los experimentos en tres dominios (inteligencia artificial, gobernanza y políticas, y bioinformática) demuestran que HybridRAG-Bench premia la recuperación y el razonamiento genuinos en lugar del recuerdo paramétrico, ofreciendo un banco de pruebas fundamentado para evaluar sistemas de razonamiento aumentados con conocimiento híbrido. Publicamos nuestro código y datos en github.com/junhongmit/HybridRAG-Bench.
English
Large language models (LLMs) continue to struggle with knowledge-intensive questions that require up-to-date information and multi-hop reasoning. Augmenting LLMs with hybrid external knowledge, such as unstructured text and structured knowledge graphs, offers a promising alternative to costly continual pretraining. As such, reliable evaluation of their retrieval and reasoning capabilities becomes critical. However, many existing benchmarks increasingly overlap with LLM pretraining data, which means answers or supporting knowledge may already be encoded in model parameters, making it difficult to distinguish genuine retrieval and reasoning from parametric recall. We introduce HybridRAG-Bench, a framework for constructing benchmarks to evaluate retrieval-intensive, multi-hop reasoning over hybrid knowledge. HybridRAG-Bench automatically couples unstructured text and structured knowledge graph representations derived from recent scientific literature on arXiv, and generates knowledge-intensive question-answer pairs grounded in explicit reasoning paths. The framework supports flexible domain and time-frame selection, enabling contamination-aware and customizable evaluation as models and knowledge evolve. Experiments across three domains (artificial intelligence, governance and policy, and bioinformatics) demonstrate that HybridRAG-Bench rewards genuine retrieval and reasoning rather than parametric recall, offering a principled testbed for evaluating hybrid knowledge-augmented reasoning systems. We release our code and data at github.com/junhongmit/HybridRAG-Bench.
PDF11February 19, 2026