RAGCap-Bench : Évaluation des capacités des LLM dans les systèmes de génération augmentée par récupération agentique
RAGCap-Bench: Benchmarking Capabilities of LLMs in Agentic Retrieval Augmented Generation Systems
October 15, 2025
papers.authors: Jingru Lin, Chen Zhang, Stephen Y. Liu, Haizhou Li
cs.AI
papers.abstract
La Génération Augmentée par Récupération (RAG) atténue les principales limitations des Modèles de Langage à Grande Échelle (LLMs), telles que les erreurs factuelles, les connaissances obsolètes et les hallucinations, en récupérant dynamiquement des informations externes. Des travaux récents étendent ce paradigme à travers des systèmes RAG agentiques, où les LLMs agissent comme des agents pour planifier, récupérer et raisonner de manière itérative sur des requêtes complexes. Cependant, ces systèmes peinent encore à répondre à des questions multi-sauts complexes, et leurs capacités de raisonnement intermédiaire restent sous-explorées. Pour y remédier, nous proposons RAGCap-Bench, un benchmark orienté capacités pour l'évaluation fine des tâches intermédiaires dans les workflows RAG agentiques. Nous analysons les sorties des systèmes les plus avancés pour identifier les tâches courantes et les capacités essentielles nécessaires à leur exécution, puis construisons une taxonomie des erreurs typiques des LLMs afin de concevoir des questions d'évaluation ciblées. Les expériences montrent que les modèles à "pensée lente" avec une meilleure performance RAGCap obtiennent de meilleurs résultats de bout en bout, soulignant la validité du benchmark et l'importance d'améliorer ces capacités intermédiaires.
English
Retrieval-Augmented Generation (RAG) mitigates key limitations of Large
Language Models (LLMs)-such as factual errors, outdated knowledge, and
hallucinations-by dynamically retrieving external information. Recent work
extends this paradigm through agentic RAG systems, where LLMs act as agents to
iteratively plan, retrieve, and reason over complex queries. However, these
systems still struggle with challenging multi-hop questions, and their
intermediate reasoning capabilities remain underexplored. To address this, we
propose RAGCap-Bench, a capability-oriented benchmark for fine-grained
evaluation of intermediate tasks in agentic RAG workflows. We analyze outputs
from state-of-the-art systems to identify common tasks and the core
capabilities required for their execution, then construct a taxonomy of typical
LLM errors to design targeted evaluation questions. Experiments show that
"slow-thinking" models with stronger RAGCap performance achieve better
end-to-end results, underscoring the benchmark's validity and the importance of
enhancing these intermediate capabilities.