RAVine: Realitätsorientierte Bewertung für agentenbasiertes Suchen
RAVine: Reality-Aligned Evaluation for Agentic Search
July 22, 2025
papers.authors: Yilong Xu, Xiang Long, Zhi Zheng, Jinhua Gao
cs.AI
papers.abstract
Agentische Suche, als ein autonomeres und adaptiveres Paradigma der Retrieval-Augmentierung, treibt die Entwicklung intelligenter Suchsysteme voran. Allerdings stimmen bestehende Evaluierungsrahmen nicht gut mit den Zielen der agentischen Suche überein. Erstens weichen die komplexen Abfragen, die in aktuellen Benchmarks häufig verwendet werden, oft von realistischen Nutzersuch-Szenarien ab. Zweitens neigen frühere Ansätze dazu, Rauschen einzuführen, wenn Ground Truth für End-to-End-Evaluierungen extrahiert wird, was zu verzerrten Bewertungen auf einer feinkörnigen Ebene führt. Drittens konzentrieren sich die meisten aktuellen Rahmen ausschließlich auf die Qualität der endgültigen Antworten und vernachlässigen die Bewertung des iterativen Prozesses, der der agentischen Suche innewohnt. Um diese Einschränkungen zu adressieren, schlagen wir RAVine vor – einen Realitäts-Aligneden Evaluierungsrahmen für agentische LLMs mit Suche. RAVine zielt auf Multipunkt-Abfragen und Langform-Antworten ab, die die Nutzerabsichten besser widerspiegeln, und führt eine zuschreibbare Ground-Truth-Konstruktionsstrategie ein, um die Genauigkeit der feinkörnigen Bewertung zu verbessern. Darüber hinaus untersucht RAVine die Interaktion des Modells mit Suchtools während des iterativen Prozesses und berücksichtigt Effizienzfaktoren. Wir benchmarken eine Reihe von Modellen mit RAVine und leiten mehrere Erkenntnisse ab, die wir hoffen, zur Weiterentwicklung agentischer Suchsysteme beizutragen. Der Code und die Datensätze sind unter https://github.com/SwordFaith/RAVine verfügbar.
English
Agentic search, as a more autonomous and adaptive paradigm of retrieval
augmentation, is driving the evolution of intelligent search systems. However,
existing evaluation frameworks fail to align well with the goals of agentic
search. First, the complex queries commonly used in current benchmarks often
deviate from realistic user search scenarios. Second, prior approaches tend to
introduce noise when extracting ground truth for end-to-end evaluations,
leading to distorted assessments at a fine-grained level. Third, most current
frameworks focus solely on the quality of final answers, neglecting the
evaluation of the iterative process inherent to agentic search. To address
these limitations, we propose RAVine -- a Reality-Aligned eValuation framework
for agentic LLMs with search. RAVine targets multi-point queries and long-form
answers that better reflect user intents, and introduces an attributable ground
truth construction strategy to enhance the accuracy of fine-grained evaluation.
Moreover, RAVine examines model's interaction with search tools throughout the
iterative process, and accounts for factors of efficiency. We benchmark a
series of models using RAVine and derive several insights, which we hope will
contribute to advancing the development of agentic search systems. The code and
datasets are available at https://github.com/SwordFaith/RAVine.