RAVine: Realitätsorientierte Bewertung für agentenbasiertes Suchen

papers.abstract

Agentische Suche, als ein autonomeres und adaptiveres Paradigma der Retrieval-Augmentierung, treibt die Entwicklung intelligenter Suchsysteme voran. Allerdings stimmen bestehende Evaluierungsrahmen nicht gut mit den Zielen der agentischen Suche überein. Erstens weichen die komplexen Abfragen, die in aktuellen Benchmarks häufig verwendet werden, oft von realistischen Nutzersuch-Szenarien ab. Zweitens neigen frühere Ansätze dazu, Rauschen einzuführen, wenn Ground Truth für End-to-End-Evaluierungen extrahiert wird, was zu verzerrten Bewertungen auf einer feinkörnigen Ebene führt. Drittens konzentrieren sich die meisten aktuellen Rahmen ausschließlich auf die Qualität der endgültigen Antworten und vernachlässigen die Bewertung des iterativen Prozesses, der der agentischen Suche innewohnt. Um diese Einschränkungen zu adressieren, schlagen wir RAVine vor – einen Realitäts-Aligneden Evaluierungsrahmen für agentische LLMs mit Suche. RAVine zielt auf Multipunkt-Abfragen und Langform-Antworten ab, die die Nutzerabsichten besser widerspiegeln, und führt eine zuschreibbare Ground-Truth-Konstruktionsstrategie ein, um die Genauigkeit der feinkörnigen Bewertung zu verbessern. Darüber hinaus untersucht RAVine die Interaktion des Modells mit Suchtools während des iterativen Prozesses und berücksichtigt Effizienzfaktoren. Wir benchmarken eine Reihe von Modellen mit RAVine und leiten mehrere Erkenntnisse ab, die wir hoffen, zur Weiterentwicklung agentischer Suchsysteme beizutragen. Der Code und die Datensätze sind unter https://github.com/SwordFaith/RAVine verfügbar.

English

Agentic search, as a more autonomous and adaptive paradigm of retrieval augmentation, is driving the evolution of intelligent search systems. However, existing evaluation frameworks fail to align well with the goals of agentic search. First, the complex queries commonly used in current benchmarks often deviate from realistic user search scenarios. Second, prior approaches tend to introduce noise when extracting ground truth for end-to-end evaluations, leading to distorted assessments at a fine-grained level. Third, most current frameworks focus solely on the quality of final answers, neglecting the evaluation of the iterative process inherent to agentic search. To address these limitations, we propose RAVine -- a Reality-Aligned eValuation framework for agentic LLMs with search. RAVine targets multi-point queries and long-form answers that better reflect user intents, and introduces an attributable ground truth construction strategy to enhance the accuracy of fine-grained evaluation. Moreover, RAVine examines model's interaction with search tools throughout the iterative process, and accounts for factors of efficiency. We benchmark a series of models using RAVine and derive several insights, which we hope will contribute to advancing the development of agentic search systems. The code and datasets are available at https://github.com/SwordFaith/RAVine.

RAVine: Realitätsorientierte Bewertung für agentenbasiertes Suchen

RAVine: Reality-Aligned Evaluation for Agentic Search

papers.abstract

Support