RAGCap-Bench: Avaliação das Capacidades de LLMs em Sistemas de Geração Aumentada por Recuperação Agente
RAGCap-Bench: Benchmarking Capabilities of LLMs in Agentic Retrieval Augmented Generation Systems
October 15, 2025
Autores: Jingru Lin, Chen Zhang, Stephen Y. Liu, Haizhou Li
cs.AI
Resumo
A Geração Aumentada por Recuperação (RAG, do inglês Retrieval-Augmented Generation) mitiga limitações fundamentais dos Modelos de Linguagem de Grande Escala (LLMs, do inglês Large Language Models)—como erros factuais, conhecimento desatualizado e alucinações—ao recuperar dinamicamente informações externas. Trabalhos recentes estendem esse paradigma por meio de sistemas RAG agentivos, nos quais os LLMs atuam como agentes para planejar, recuperar e raciocinar iterativamente sobre consultas complexas. No entanto, esses sistemas ainda enfrentam dificuldades com perguntas desafiadoras de múltiplos saltos (multi-hop), e suas capacidades de raciocínio intermediário permanecem pouco exploradas. Para abordar isso, propomos o RAGCap-Bench, um benchmark orientado a capacidades para avaliação detalhada de tarefas intermediárias em fluxos de trabalho RAG agentivos. Analisamos saídas de sistemas de última geração para identificar tarefas comuns e as capacidades essenciais necessárias para sua execução, e então construímos uma taxonomia de erros típicos dos LLMs para projetar perguntas de avaliação direcionadas. Experimentos mostram que modelos de "pensamento lento" com melhor desempenho no RAGCap alcançam resultados finais superiores, reforçando a validade do benchmark e a importância de aprimorar essas capacidades intermediárias.
English
Retrieval-Augmented Generation (RAG) mitigates key limitations of Large
Language Models (LLMs)-such as factual errors, outdated knowledge, and
hallucinations-by dynamically retrieving external information. Recent work
extends this paradigm through agentic RAG systems, where LLMs act as agents to
iteratively plan, retrieve, and reason over complex queries. However, these
systems still struggle with challenging multi-hop questions, and their
intermediate reasoning capabilities remain underexplored. To address this, we
propose RAGCap-Bench, a capability-oriented benchmark for fine-grained
evaluation of intermediate tasks in agentic RAG workflows. We analyze outputs
from state-of-the-art systems to identify common tasks and the core
capabilities required for their execution, then construct a taxonomy of typical
LLM errors to design targeted evaluation questions. Experiments show that
"slow-thinking" models with stronger RAGCap performance achieve better
end-to-end results, underscoring the benchmark's validity and the importance of
enhancing these intermediate capabilities.