RAGCap-Bench: Avaliação das Capacidades de LLMs em Sistemas de Geração Aumentada por Recuperação Agente

Resumo

A Geração Aumentada por Recuperação (RAG, do inglês Retrieval-Augmented Generation) mitiga limitações fundamentais dos Modelos de Linguagem de Grande Escala (LLMs, do inglês Large Language Models)—como erros factuais, conhecimento desatualizado e alucinações—ao recuperar dinamicamente informações externas. Trabalhos recentes estendem esse paradigma por meio de sistemas RAG agentivos, nos quais os LLMs atuam como agentes para planejar, recuperar e raciocinar iterativamente sobre consultas complexas. No entanto, esses sistemas ainda enfrentam dificuldades com perguntas desafiadoras de múltiplos saltos (multi-hop), e suas capacidades de raciocínio intermediário permanecem pouco exploradas. Para abordar isso, propomos o RAGCap-Bench, um benchmark orientado a capacidades para avaliação detalhada de tarefas intermediárias em fluxos de trabalho RAG agentivos. Analisamos saídas de sistemas de última geração para identificar tarefas comuns e as capacidades essenciais necessárias para sua execução, e então construímos uma taxonomia de erros típicos dos LLMs para projetar perguntas de avaliação direcionadas. Experimentos mostram que modelos de "pensamento lento" com melhor desempenho no RAGCap alcançam resultados finais superiores, reforçando a validade do benchmark e a importância de aprimorar essas capacidades intermediárias.

English

Retrieval-Augmented Generation (RAG) mitigates key limitations of Large Language Models (LLMs)-such as factual errors, outdated knowledge, and hallucinations-by dynamically retrieving external information. Recent work extends this paradigm through agentic RAG systems, where LLMs act as agents to iteratively plan, retrieve, and reason over complex queries. However, these systems still struggle with challenging multi-hop questions, and their intermediate reasoning capabilities remain underexplored. To address this, we propose RAGCap-Bench, a capability-oriented benchmark for fine-grained evaluation of intermediate tasks in agentic RAG workflows. We analyze outputs from state-of-the-art systems to identify common tasks and the core capabilities required for their execution, then construct a taxonomy of typical LLM errors to design targeted evaluation questions. Experiments show that "slow-thinking" models with stronger RAGCap performance achieve better end-to-end results, underscoring the benchmark's validity and the importance of enhancing these intermediate capabilities.

RAGCap-Bench: Avaliação das Capacidades de LLMs em Sistemas de Geração Aumentada por Recuperação Agente

RAGCap-Bench: Benchmarking Capabilities of LLMs in Agentic Retrieval Augmented Generation Systems

Resumo

Support