RAGCap-Bench: Оценка возможностей языковых моделей в системах генерации с усилением на основе агентного поиска

Аннотация

Генерация с использованием извлечения информации (Retrieval-Augmented Generation, RAG) смягчает ключевые ограничения больших языковых моделей (Large Language Models, LLMs), такие как фактические ошибки, устаревшие знания и галлюцинации, за счет динамического извлечения внешней информации. Последние исследования расширяют эту парадигму с помощью агентских систем RAG, где LLMs выступают в роли агентов, которые итеративно планируют, извлекают и анализируют сложные запросы. Однако такие системы по-прежнему испытывают трудности с решением сложных многошаговых вопросов, а их промежуточные способности к рассуждению остаются недостаточно изученными. Для решения этой проблемы мы предлагаем RAGCap-Bench — ориентированный на возможности эталонный тест для детальной оценки промежуточных задач в агентских рабочих процессах RAG. Мы анализируем выходные данные современных систем, чтобы определить общие задачи и ключевые способности, необходимые для их выполнения, а затем создаем таксономию типичных ошибок LLM для разработки целенаправленных оценочных вопросов. Эксперименты показывают, что модели с "медленным мышлением", демонстрирующие более высокие результаты в RAGCap, достигают лучших конечных результатов, что подтверждает валидность эталонного теста и важность улучшения этих промежуточных способностей.

English

Retrieval-Augmented Generation (RAG) mitigates key limitations of Large Language Models (LLMs)-such as factual errors, outdated knowledge, and hallucinations-by dynamically retrieving external information. Recent work extends this paradigm through agentic RAG systems, where LLMs act as agents to iteratively plan, retrieve, and reason over complex queries. However, these systems still struggle with challenging multi-hop questions, and their intermediate reasoning capabilities remain underexplored. To address this, we propose RAGCap-Bench, a capability-oriented benchmark for fine-grained evaluation of intermediate tasks in agentic RAG workflows. We analyze outputs from state-of-the-art systems to identify common tasks and the core capabilities required for their execution, then construct a taxonomy of typical LLM errors to design targeted evaluation questions. Experiments show that "slow-thinking" models with stronger RAGCap performance achieve better end-to-end results, underscoring the benchmark's validity and the importance of enhancing these intermediate capabilities.

RAGCap-Bench: Оценка возможностей языковых моделей в системах генерации с усилением на основе агентного поиска

RAGCap-Bench: Benchmarking Capabilities of LLMs in Agentic Retrieval Augmented Generation Systems

Аннотация

Support