RAVine : Évaluation Alignée sur la Réalité pour la Recherche Agentique
RAVine: Reality-Aligned Evaluation for Agentic Search
July 22, 2025
papers.authors: Yilong Xu, Xiang Long, Zhi Zheng, Jinhua Gao
cs.AI
papers.abstract
La recherche agentique, en tant que paradigme plus autonome et adaptatif d'augmentation par récupération, est en train de propulser l'évolution des systèmes de recherche intelligents. Cependant, les cadres d'évaluation existants ne s'alignent pas bien avec les objectifs de la recherche agentique. Premièrement, les requêtes complexes couramment utilisées dans les benchmarks actuels s'écartent souvent des scénarios de recherche réalistes des utilisateurs. Deuxièmement, les approches antérieures ont tendance à introduire du bruit lors de l'extraction de la vérité terrain pour les évaluations end-to-end, conduisant à des évaluations faussées à un niveau granulaire. Troisièmement, la plupart des cadres actuels se concentrent uniquement sur la qualité des réponses finales, négligeant l'évaluation du processus itératif inhérent à la recherche agentique. Pour pallier ces limitations, nous proposons RAVine — un cadre d'évaluation aligné sur la réalité pour les LLMs agentiques avec recherche. RAVine cible les requêtes multipoints et les réponses longues qui reflètent mieux les intentions des utilisateurs, et introduit une stratégie de construction de vérité terrain attribuable pour améliorer la précision de l'évaluation granulaire. De plus, RAVine examine l'interaction du modèle avec les outils de recherche tout au long du processus itératif, et prend en compte les facteurs d'efficacité. Nous évaluons une série de modèles en utilisant RAVine et tirons plusieurs conclusions, que nous espérons contribueront à faire progresser le développement des systèmes de recherche agentique. Le code et les jeux de données sont disponibles à l'adresse https://github.com/SwordFaith/RAVine.
English
Agentic search, as a more autonomous and adaptive paradigm of retrieval
augmentation, is driving the evolution of intelligent search systems. However,
existing evaluation frameworks fail to align well with the goals of agentic
search. First, the complex queries commonly used in current benchmarks often
deviate from realistic user search scenarios. Second, prior approaches tend to
introduce noise when extracting ground truth for end-to-end evaluations,
leading to distorted assessments at a fine-grained level. Third, most current
frameworks focus solely on the quality of final answers, neglecting the
evaluation of the iterative process inherent to agentic search. To address
these limitations, we propose RAVine -- a Reality-Aligned eValuation framework
for agentic LLMs with search. RAVine targets multi-point queries and long-form
answers that better reflect user intents, and introduces an attributable ground
truth construction strategy to enhance the accuracy of fine-grained evaluation.
Moreover, RAVine examines model's interaction with search tools throughout the
iterative process, and accounts for factors of efficiency. We benchmark a
series of models using RAVine and derive several insights, which we hope will
contribute to advancing the development of agentic search systems. The code and
datasets are available at https://github.com/SwordFaith/RAVine.