RAVine: Evaluación Alineada con la Realidad para Búsqueda Agéntica
RAVine: Reality-Aligned Evaluation for Agentic Search
July 22, 2025
Autores: Yilong Xu, Xiang Long, Zhi Zheng, Jinhua Gao
cs.AI
Resumen
La búsqueda agentica, como un paradigma más autónomo y adaptable de aumento de recuperación, está impulsando la evolución de los sistemas de búsqueda inteligente. Sin embargo, los marcos de evaluación existentes no se alinean bien con los objetivos de la búsqueda agentica. En primer lugar, las consultas complejas comúnmente utilizadas en los puntos de referencia actuales a menudo se desvían de los escenarios de búsqueda realistas de los usuarios. En segundo lugar, los enfoques previos tienden a introducir ruido al extraer la verdad fundamental para las evaluaciones de extremo a extremo, lo que lleva a evaluaciones distorsionadas a un nivel granular. En tercer lugar, la mayoría de los marcos actuales se centran únicamente en la calidad de las respuestas finales, descuidando la evaluación del proceso iterativo inherente a la búsqueda agentica. Para abordar estas limitaciones, proponemos RAVine: un marco de evaluación alineado con la realidad para modelos de lenguaje agenticos con búsqueda. RAVine se enfoca en consultas de múltiples puntos y respuestas extensas que reflejan mejor las intenciones del usuario, e introduce una estrategia de construcción de verdad fundamental atribuible para mejorar la precisión de la evaluación granular. Además, RAVine examina la interacción del modelo con las herramientas de búsqueda a lo largo del proceso iterativo y tiene en cuenta factores de eficiencia. Evaluamos una serie de modelos utilizando RAVine y derivamos varias conclusiones, que esperamos contribuyan al avance del desarrollo de los sistemas de búsqueda agentica. El código y los conjuntos de datos están disponibles en https://github.com/SwordFaith/RAVine.
English
Agentic search, as a more autonomous and adaptive paradigm of retrieval
augmentation, is driving the evolution of intelligent search systems. However,
existing evaluation frameworks fail to align well with the goals of agentic
search. First, the complex queries commonly used in current benchmarks often
deviate from realistic user search scenarios. Second, prior approaches tend to
introduce noise when extracting ground truth for end-to-end evaluations,
leading to distorted assessments at a fine-grained level. Third, most current
frameworks focus solely on the quality of final answers, neglecting the
evaluation of the iterative process inherent to agentic search. To address
these limitations, we propose RAVine -- a Reality-Aligned eValuation framework
for agentic LLMs with search. RAVine targets multi-point queries and long-form
answers that better reflect user intents, and introduces an attributable ground
truth construction strategy to enhance the accuracy of fine-grained evaluation.
Moreover, RAVine examines model's interaction with search tools throughout the
iterative process, and accounts for factors of efficiency. We benchmark a
series of models using RAVine and derive several insights, which we hope will
contribute to advancing the development of agentic search systems. The code and
datasets are available at https://github.com/SwordFaith/RAVine.