ChatPaper.aiChatPaper

RAGCap-Bench: エージェント型検索拡張生成システムにおける大規模言語モデルの能力ベンチマーク

RAGCap-Bench: Benchmarking Capabilities of LLMs in Agentic Retrieval Augmented Generation Systems

October 15, 2025
著者: Jingru Lin, Chen Zhang, Stephen Y. Liu, Haizhou Li
cs.AI

要旨

検索拡張生成(RAG)は、外部情報を動的に取得することで、大規模言語モデル(LLM)の主要な制約(事実誤り、陳腐化した知識、虚構生成など)を緩和します。最近の研究では、LLMをエージェントとして複雑なクエリに対して反復的に計画、検索、推論を行うエージェント型RAGシステムを通じて、このパラダイムを拡張しています。しかし、これらのシステムは依然として難しいマルチホップ質問に苦戦しており、中間推論能力は十分に探究されていません。これを解決するため、我々はRAGCap-Benchを提案します。これは、エージェント型RAGワークフローの中間タスクを詳細に評価するための能力指向ベンチマークです。最先端システムの出力を分析し、一般的なタスクとその実行に必要な中核能力を特定し、典型的なLLMエラーの分類体系を構築して、ターゲットを絞った評価質問を設計します。実験結果から、「スローシンキング」モデルがRAGCap性能を強化することでエンドツーエンドの結果が向上することが示され、ベンチマークの有効性とこれらの中間能力を強化する重要性が強調されました。
English
Retrieval-Augmented Generation (RAG) mitigates key limitations of Large Language Models (LLMs)-such as factual errors, outdated knowledge, and hallucinations-by dynamically retrieving external information. Recent work extends this paradigm through agentic RAG systems, where LLMs act as agents to iteratively plan, retrieve, and reason over complex queries. However, these systems still struggle with challenging multi-hop questions, and their intermediate reasoning capabilities remain underexplored. To address this, we propose RAGCap-Bench, a capability-oriented benchmark for fine-grained evaluation of intermediate tasks in agentic RAG workflows. We analyze outputs from state-of-the-art systems to identify common tasks and the core capabilities required for their execution, then construct a taxonomy of typical LLM errors to design targeted evaluation questions. Experiments show that "slow-thinking" models with stronger RAGCap performance achieve better end-to-end results, underscoring the benchmark's validity and the importance of enhancing these intermediate capabilities.
PDF12October 17, 2025