RAGCap-Bench: Het benchmarken van de capaciteiten van LLM's in agentgestuurde retrieval-augmented generatiesystemen

Samenvatting

Retrieval-Augmented Generation (RAG) vermindert belangrijke beperkingen van Large Language Models (LLM's), zoals feitelijke onjuistheden, verouderde kennis en hallucinaties, door dynamisch externe informatie op te halen. Recent onderzoek breidt dit paradigma uit met agentische RAG-systemen, waarbij LLM's als agenten fungeren om iteratief te plannen, informatie op te halen en te redeneren over complexe vragen. Deze systemen hebben echter nog steeds moeite met uitdagende multi-hop vragen, en hun tussenliggende redeneervaardigheden blijven onderbelicht. Om dit aan te pakken, stellen we RAGCap-Bench voor, een capaciteitsgericht benchmark voor gedetailleerde evaluatie van tussenliggende taken in agentische RAG-werkstromen. We analyseren uitvoer van state-of-the-art systemen om veelvoorkomende taken en de kernvaardigheden die nodig zijn voor hun uitvoering te identificeren, en construeren vervolgens een taxonomie van typische LLM-fouten om gerichte evaluatievragen te ontwerpen. Experimenten tonen aan dat "langzaam denkende" modellen met sterkere RAGCap-prestaties betere end-to-end resultaten behalen, wat de validiteit van de benchmark onderstreept en het belang benadrukt van het verbeteren van deze tussenliggende vaardigheden.

English

Retrieval-Augmented Generation (RAG) mitigates key limitations of Large Language Models (LLMs)-such as factual errors, outdated knowledge, and hallucinations-by dynamically retrieving external information. Recent work extends this paradigm through agentic RAG systems, where LLMs act as agents to iteratively plan, retrieve, and reason over complex queries. However, these systems still struggle with challenging multi-hop questions, and their intermediate reasoning capabilities remain underexplored. To address this, we propose RAGCap-Bench, a capability-oriented benchmark for fine-grained evaluation of intermediate tasks in agentic RAG workflows. We analyze outputs from state-of-the-art systems to identify common tasks and the core capabilities required for their execution, then construct a taxonomy of typical LLM errors to design targeted evaluation questions. Experiments show that "slow-thinking" models with stronger RAGCap performance achieve better end-to-end results, underscoring the benchmark's validity and the importance of enhancing these intermediate capabilities.

RAGCap-Bench: Het benchmarken van de capaciteiten van LLM's in agentgestuurde retrieval-augmented generatiesystemen

RAGCap-Bench: Benchmarking Capabilities of LLMs in Agentic Retrieval Augmented Generation Systems

Samenvatting

Support