RAGCap-Bench: Оценка возможностей языковых моделей в системах генерации с усилением на основе агентного поиска
RAGCap-Bench: Benchmarking Capabilities of LLMs in Agentic Retrieval Augmented Generation Systems
October 15, 2025
Авторы: Jingru Lin, Chen Zhang, Stephen Y. Liu, Haizhou Li
cs.AI
Аннотация
Генерация с использованием извлечения информации (Retrieval-Augmented Generation, RAG) смягчает ключевые ограничения больших языковых моделей (Large Language Models, LLMs), такие как фактические ошибки, устаревшие знания и галлюцинации, за счет динамического извлечения внешней информации. Последние исследования расширяют эту парадигму с помощью агентских систем RAG, где LLMs выступают в роли агентов, которые итеративно планируют, извлекают и анализируют сложные запросы. Однако такие системы по-прежнему испытывают трудности с решением сложных многошаговых вопросов, а их промежуточные способности к рассуждению остаются недостаточно изученными. Для решения этой проблемы мы предлагаем RAGCap-Bench — ориентированный на возможности эталонный тест для детальной оценки промежуточных задач в агентских рабочих процессах RAG. Мы анализируем выходные данные современных систем, чтобы определить общие задачи и ключевые способности, необходимые для их выполнения, а затем создаем таксономию типичных ошибок LLM для разработки целенаправленных оценочных вопросов. Эксперименты показывают, что модели с "медленным мышлением", демонстрирующие более высокие результаты в RAGCap, достигают лучших конечных результатов, что подтверждает валидность эталонного теста и важность улучшения этих промежуточных способностей.
English
Retrieval-Augmented Generation (RAG) mitigates key limitations of Large
Language Models (LLMs)-such as factual errors, outdated knowledge, and
hallucinations-by dynamically retrieving external information. Recent work
extends this paradigm through agentic RAG systems, where LLMs act as agents to
iteratively plan, retrieve, and reason over complex queries. However, these
systems still struggle with challenging multi-hop questions, and their
intermediate reasoning capabilities remain underexplored. To address this, we
propose RAGCap-Bench, a capability-oriented benchmark for fine-grained
evaluation of intermediate tasks in agentic RAG workflows. We analyze outputs
from state-of-the-art systems to identify common tasks and the core
capabilities required for their execution, then construct a taxonomy of typical
LLM errors to design targeted evaluation questions. Experiments show that
"slow-thinking" models with stronger RAGCap performance achieve better
end-to-end results, underscoring the benchmark's validity and the importance of
enhancing these intermediate capabilities.