RAVine: Оценка, согласованная с реальностью для агентного поиска
RAVine: Reality-Aligned Evaluation for Agentic Search
July 22, 2025
Авторы: Yilong Xu, Xiang Long, Zhi Zheng, Jinhua Gao
cs.AI
Аннотация
Агентный поиск, как более автономная и адаптивная парадигма расширения поиска, способствует эволюции интеллектуальных поисковых систем. Однако существующие оценочные рамки плохо соответствуют целям агентного поиска. Во-первых, сложные запросы, часто используемые в современных тестах, зачастую отклоняются от реалистичных сценариев поиска пользователей. Во-вторых, предыдущие подходы склонны вносить шум при извлечении эталонных данных для сквозной оценки, что приводит к искажённым оценкам на детальном уровне. В-третьих, большинство текущих рамок сосредоточено исключительно на качестве конечных ответов, игнорируя оценку итеративного процесса, присущего агентному поиску. Для устранения этих ограничений мы предлагаем RAVine — оценочную рамку, согласованную с реальностью, для агентных языковых моделей с поиском. RAVine ориентирована на многопараметрические запросы и развёрнутые ответы, которые лучше отражают намерения пользователей, и вводит стратегию построения атрибутируемых эталонных данных для повышения точности детальной оценки. Кроме того, RAVine анализирует взаимодействие модели с поисковыми инструментами на протяжении итеративного процесса и учитывает факторы эффективности. Мы тестируем ряд моделей с использованием RAVine и получаем несколько важных выводов, которые, как мы надеемся, внесут вклад в развитие агентных поисковых систем. Код и наборы данных доступны по адресу https://github.com/SwordFaith/RAVine.
English
Agentic search, as a more autonomous and adaptive paradigm of retrieval
augmentation, is driving the evolution of intelligent search systems. However,
existing evaluation frameworks fail to align well with the goals of agentic
search. First, the complex queries commonly used in current benchmarks often
deviate from realistic user search scenarios. Second, prior approaches tend to
introduce noise when extracting ground truth for end-to-end evaluations,
leading to distorted assessments at a fine-grained level. Third, most current
frameworks focus solely on the quality of final answers, neglecting the
evaluation of the iterative process inherent to agentic search. To address
these limitations, we propose RAVine -- a Reality-Aligned eValuation framework
for agentic LLMs with search. RAVine targets multi-point queries and long-form
answers that better reflect user intents, and introduces an attributable ground
truth construction strategy to enhance the accuracy of fine-grained evaluation.
Moreover, RAVine examines model's interaction with search tools throughout the
iterative process, and accounts for factors of efficiency. We benchmark a
series of models using RAVine and derive several insights, which we hope will
contribute to advancing the development of agentic search systems. The code and
datasets are available at https://github.com/SwordFaith/RAVine.