RAGCap-Bench : Évaluation des capacités des LLM dans les systèmes de génération augmentée par récupération agentique

papers.abstract

La Génération Augmentée par Récupération (RAG) atténue les principales limitations des Modèles de Langage à Grande Échelle (LLMs), telles que les erreurs factuelles, les connaissances obsolètes et les hallucinations, en récupérant dynamiquement des informations externes. Des travaux récents étendent ce paradigme à travers des systèmes RAG agentiques, où les LLMs agissent comme des agents pour planifier, récupérer et raisonner de manière itérative sur des requêtes complexes. Cependant, ces systèmes peinent encore à répondre à des questions multi-sauts complexes, et leurs capacités de raisonnement intermédiaire restent sous-explorées. Pour y remédier, nous proposons RAGCap-Bench, un benchmark orienté capacités pour l'évaluation fine des tâches intermédiaires dans les workflows RAG agentiques. Nous analysons les sorties des systèmes les plus avancés pour identifier les tâches courantes et les capacités essentielles nécessaires à leur exécution, puis construisons une taxonomie des erreurs typiques des LLMs afin de concevoir des questions d'évaluation ciblées. Les expériences montrent que les modèles à "pensée lente" avec une meilleure performance RAGCap obtiennent de meilleurs résultats de bout en bout, soulignant la validité du benchmark et l'importance d'améliorer ces capacités intermédiaires.

English

Retrieval-Augmented Generation (RAG) mitigates key limitations of Large Language Models (LLMs)-such as factual errors, outdated knowledge, and hallucinations-by dynamically retrieving external information. Recent work extends this paradigm through agentic RAG systems, where LLMs act as agents to iteratively plan, retrieve, and reason over complex queries. However, these systems still struggle with challenging multi-hop questions, and their intermediate reasoning capabilities remain underexplored. To address this, we propose RAGCap-Bench, a capability-oriented benchmark for fine-grained evaluation of intermediate tasks in agentic RAG workflows. We analyze outputs from state-of-the-art systems to identify common tasks and the core capabilities required for their execution, then construct a taxonomy of typical LLM errors to design targeted evaluation questions. Experiments show that "slow-thinking" models with stronger RAGCap performance achieve better end-to-end results, underscoring the benchmark's validity and the importance of enhancing these intermediate capabilities.

RAGCap-Bench : Évaluation des capacités des LLM dans les systèmes de génération augmentée par récupération agentique

RAGCap-Bench: Benchmarking Capabilities of LLMs in Agentic Retrieval Augmented Generation Systems

papers.abstract

Support