RAVine: Realiteit-Gebonden Evaluatie voor Agentgericht Zoeken
RAVine: Reality-Aligned Evaluation for Agentic Search
July 22, 2025
Auteurs: Yilong Xu, Xiang Long, Zhi Zheng, Jinhua Gao
cs.AI
Samenvatting
Agentic search, als een meer autonoom en adaptief paradigma van retrieval-augmentatie, drijft de evolutie van intelligente zoeksystemen aan. Echter sluiten bestaande evaluatieframeworks niet goed aan bij de doelstellingen van agentic search. Ten eerste wijken de complexe queries die vaak worden gebruikt in huidige benchmarks vaak af van realistische gebruikerszoek-scenario's. Ten tweede introduceren eerdere benaderingen vaak ruis bij het extraheren van grondwaarheden voor end-to-end evaluaties, wat leidt tot vertekende beoordelingen op een fijnmazig niveau. Ten derde richten de meeste huidige frameworks zich uitsluitend op de kwaliteit van de uiteindelijke antwoorden, waarbij de evaluatie van het iteratieve proces dat inherent is aan agentic search wordt verwaarloosd. Om deze beperkingen aan te pakken, stellen we RAVine voor -- een Reality-Aligned eValuation-framework voor agentic LLM's met zoekfunctionaliteit. RAVine richt zich op multi-point queries en langere antwoorden die beter aansluiten bij gebruikersintenties, en introduceert een strategie voor het construeren van toeschrijfbare grondwaarheden om de nauwkeurigheid van fijnmazige evaluatie te verbeteren. Bovendien onderzoekt RAVine de interactie van het model met zoekgereedschappen gedurende het iteratieve proces en houdt het rekening met efficiëntiefactoren. We benchmarken een reeks modellen met behulp van RAVine en leiden verschillende inzichten af, die we hopen bij te dragen aan de verdere ontwikkeling van agentic search-systemen. De code en datasets zijn beschikbaar op https://github.com/SwordFaith/RAVine.
English
Agentic search, as a more autonomous and adaptive paradigm of retrieval
augmentation, is driving the evolution of intelligent search systems. However,
existing evaluation frameworks fail to align well with the goals of agentic
search. First, the complex queries commonly used in current benchmarks often
deviate from realistic user search scenarios. Second, prior approaches tend to
introduce noise when extracting ground truth for end-to-end evaluations,
leading to distorted assessments at a fine-grained level. Third, most current
frameworks focus solely on the quality of final answers, neglecting the
evaluation of the iterative process inherent to agentic search. To address
these limitations, we propose RAVine -- a Reality-Aligned eValuation framework
for agentic LLMs with search. RAVine targets multi-point queries and long-form
answers that better reflect user intents, and introduces an attributable ground
truth construction strategy to enhance the accuracy of fine-grained evaluation.
Moreover, RAVine examines model's interaction with search tools throughout the
iterative process, and accounts for factors of efficiency. We benchmark a
series of models using RAVine and derive several insights, which we hope will
contribute to advancing the development of agentic search systems. The code and
datasets are available at https://github.com/SwordFaith/RAVine.