RAGCap-Bench: Het benchmarken van de capaciteiten van LLM's in agentgestuurde retrieval-augmented generatiesystemen
RAGCap-Bench: Benchmarking Capabilities of LLMs in Agentic Retrieval Augmented Generation Systems
October 15, 2025
Auteurs: Jingru Lin, Chen Zhang, Stephen Y. Liu, Haizhou Li
cs.AI
Samenvatting
Retrieval-Augmented Generation (RAG) vermindert belangrijke beperkingen van Large Language Models (LLM's), zoals feitelijke onjuistheden, verouderde kennis en hallucinaties, door dynamisch externe informatie op te halen. Recent onderzoek breidt dit paradigma uit met agentische RAG-systemen, waarbij LLM's als agenten fungeren om iteratief te plannen, informatie op te halen en te redeneren over complexe vragen. Deze systemen hebben echter nog steeds moeite met uitdagende multi-hop vragen, en hun tussenliggende redeneervaardigheden blijven onderbelicht. Om dit aan te pakken, stellen we RAGCap-Bench voor, een capaciteitsgericht benchmark voor gedetailleerde evaluatie van tussenliggende taken in agentische RAG-werkstromen. We analyseren uitvoer van state-of-the-art systemen om veelvoorkomende taken en de kernvaardigheden die nodig zijn voor hun uitvoering te identificeren, en construeren vervolgens een taxonomie van typische LLM-fouten om gerichte evaluatievragen te ontwerpen. Experimenten tonen aan dat "langzaam denkende" modellen met sterkere RAGCap-prestaties betere end-to-end resultaten behalen, wat de validiteit van de benchmark onderstreept en het belang benadrukt van het verbeteren van deze tussenliggende vaardigheden.
English
Retrieval-Augmented Generation (RAG) mitigates key limitations of Large
Language Models (LLMs)-such as factual errors, outdated knowledge, and
hallucinations-by dynamically retrieving external information. Recent work
extends this paradigm through agentic RAG systems, where LLMs act as agents to
iteratively plan, retrieve, and reason over complex queries. However, these
systems still struggle with challenging multi-hop questions, and their
intermediate reasoning capabilities remain underexplored. To address this, we
propose RAGCap-Bench, a capability-oriented benchmark for fine-grained
evaluation of intermediate tasks in agentic RAG workflows. We analyze outputs
from state-of-the-art systems to identify common tasks and the core
capabilities required for their execution, then construct a taxonomy of typical
LLM errors to design targeted evaluation questions. Experiments show that
"slow-thinking" models with stronger RAGCap performance achieve better
end-to-end results, underscoring the benchmark's validity and the importance of
enhancing these intermediate capabilities.