ChatPaper.aiChatPaper

RAVine: エージェント探索のための現実整合型評価

RAVine: Reality-Aligned Evaluation for Agentic Search

July 22, 2025
著者: Yilong Xu, Xiang Long, Zhi Zheng, Jinhua Gao
cs.AI

要旨

エージェント型検索は、より自律的で適応的な検索拡張のパラダイムとして、インテリジェント検索システムの進化を牽引しています。しかし、既存の評価フレームワークはエージェント型検索の目標と十分に整合していません。第一に、現在のベンチマークで一般的に使用される複雑なクエリは、現実的なユーザー検索シナリオから乖離していることが多いです。第二に、従来のアプローチではエンドツーエンド評価のためのグラウンドトゥルースを抽出する際にノイズが導入され、細粒度レベルでの評価が歪められる傾向があります。第三に、現在のほとんどのフレームワークは最終的な回答の品質にのみ焦点を当てており、エージェント型検索に内在する反復プロセスの評価を軽視しています。これらの課題に対処するため、我々はRAVine(Reality-Aligned eValuation framework for agentic LLMs with search)を提案します。RAVineは、ユーザーの意図をより適切に反映するマルチポイントクエリと長文回答を対象とし、細粒度評価の精度を向上させるための帰属可能なグラウンドトゥルース構築戦略を導入します。さらに、RAVineは反復プロセス全体におけるモデルの検索ツールとの相互作用を検証し、効率性の要素も考慮します。我々はRAVineを使用して一連のモデルをベンチマークし、いくつかの洞察を得ました。これらがエージェント型検索システムの開発を進める一助となることを期待しています。コードとデータセットはhttps://github.com/SwordFaith/RAVineで公開されています。
English
Agentic search, as a more autonomous and adaptive paradigm of retrieval augmentation, is driving the evolution of intelligent search systems. However, existing evaluation frameworks fail to align well with the goals of agentic search. First, the complex queries commonly used in current benchmarks often deviate from realistic user search scenarios. Second, prior approaches tend to introduce noise when extracting ground truth for end-to-end evaluations, leading to distorted assessments at a fine-grained level. Third, most current frameworks focus solely on the quality of final answers, neglecting the evaluation of the iterative process inherent to agentic search. To address these limitations, we propose RAVine -- a Reality-Aligned eValuation framework for agentic LLMs with search. RAVine targets multi-point queries and long-form answers that better reflect user intents, and introduces an attributable ground truth construction strategy to enhance the accuracy of fine-grained evaluation. Moreover, RAVine examines model's interaction with search tools throughout the iterative process, and accounts for factors of efficiency. We benchmark a series of models using RAVine and derive several insights, which we hope will contribute to advancing the development of agentic search systems. The code and datasets are available at https://github.com/SwordFaith/RAVine.
PDF281July 24, 2025