Dans quelle mesure les modèles à augmentation par récupération ajout-ils du raisonnement au-delà des LLM ? Un cadre d'évaluation pour l'inférence multi-sauts sur des connaissances hybrides
How Much Reasoning Do Retrieval-Augmented Models Add beyond LLMs? A Benchmarking Framework for Multi-Hop Inference over Hybrid Knowledge
February 10, 2026
papers.authors: Junhong Lin, Bing Zhang, Song Wang, Ziyan Liu, Dan Gutfreund, Julian Shun, Yada Zhu
cs.AI
papers.abstract
Les grands modèles de langage (LLM) continuent de rencontrer des difficultés face à des questions exigeant des connaissances approfondies qui nécessitent des informations actualisées et un raisonnement à multiples étapes. L'enrichissement des LLM avec des connaissances externes hybrides, telles que du texte non structuré et des graphes de connaissances structurés, offre une alternative prometteuse au pré-entraînement continu coûteux. De ce fait, l'évaluation fiable de leurs capacités de recherche et de raisonnement devient cruciale. Cependant, de nombreux benchmarks existants se recoupent de plus en plus avec les données de pré-entraînement des LLM, ce qui signifie que les réponses ou les connaissances de support peuvent déjà être encodées dans les paramètres du modèle, rendant difficile la distinction entre une véritable recherche/raisonnement et un rappel paramétrique. Nous présentons HybridRAG-Bench, un cadre pour construire des benchmarks afin d'évaluer le raisonnement à multiples étapes et intensif en recherche sur des connaissances hybrides. HybridRAG-Bench associe automatiquement des représentations sous forme de texte non structuré et de graphes de connaissances structurés, dérivées d'articles scientifiques récents sur arXiv, et génère des paires question-réponse exigeantes en connaissances, fondées sur des chemins de raisonnement explicites. Le cadre prend en charge une sélection flexible du domaine et de la période, permettant une évaluation personnalisable et consciente de la contamination au fur et à mesure que les modèles et les connaissances évoluent. Des expériences menées dans trois domaines (intelligence artificielle, gouvernance et politiques, et bio-informatique) démontrent qu'HybridRAG-Bench récompense une véritable recherche et un véritable raisonnement plutôt qu'un rappel paramétrique, offrant ainsi un banc d'essai fondé pour évaluer les systèmes de raisonnement augmentés par des connaissances hybrides. Nous publions notre code et nos données sur github.com/junhongmit/HybridRAG-Bench.
English
Large language models (LLMs) continue to struggle with knowledge-intensive questions that require up-to-date information and multi-hop reasoning. Augmenting LLMs with hybrid external knowledge, such as unstructured text and structured knowledge graphs, offers a promising alternative to costly continual pretraining. As such, reliable evaluation of their retrieval and reasoning capabilities becomes critical. However, many existing benchmarks increasingly overlap with LLM pretraining data, which means answers or supporting knowledge may already be encoded in model parameters, making it difficult to distinguish genuine retrieval and reasoning from parametric recall. We introduce HybridRAG-Bench, a framework for constructing benchmarks to evaluate retrieval-intensive, multi-hop reasoning over hybrid knowledge. HybridRAG-Bench automatically couples unstructured text and structured knowledge graph representations derived from recent scientific literature on arXiv, and generates knowledge-intensive question-answer pairs grounded in explicit reasoning paths. The framework supports flexible domain and time-frame selection, enabling contamination-aware and customizable evaluation as models and knowledge evolve. Experiments across three domains (artificial intelligence, governance and policy, and bioinformatics) demonstrate that HybridRAG-Bench rewards genuine retrieval and reasoning rather than parametric recall, offering a principled testbed for evaluating hybrid knowledge-augmented reasoning systems. We release our code and data at github.com/junhongmit/HybridRAG-Bench.