ChatPaper.aiChatPaper

RAVine: Valutazione Allineata alla Realtà per la Ricerca Agente

RAVine: Reality-Aligned Evaluation for Agentic Search

July 22, 2025
Autori: Yilong Xu, Xiang Long, Zhi Zheng, Jinhua Gao
cs.AI

Abstract

La ricerca agentica, come paradigma più autonomo e adattivo di retrieval augmentation, sta guidando l'evoluzione dei sistemi di ricerca intelligenti. Tuttavia, gli attuali framework di valutazione non si allineano bene con gli obiettivi della ricerca agentica. In primo luogo, le query complesse comunemente utilizzate nei benchmark attuali spesso si discostano dagli scenari di ricerca realistici degli utenti. In secondo luogo, gli approcci precedenti tendono a introdurre rumore durante l'estrazione della ground truth per valutazioni end-to-end, portando a valutazioni distorte a un livello di granularità fine. In terzo luogo, la maggior parte dei framework attuali si concentra esclusivamente sulla qualità delle risposte finali, trascurando la valutazione del processo iterativo intrinseco alla ricerca agentica. Per affrontare queste limitazioni, proponiamo RAVine -- un framework di valutazione allineato alla realtà per LLM agentici con ricerca. RAVine si concentra su query multipunto e risposte di forma lunga che riflettono meglio le intenzioni degli utenti, e introduce una strategia di costruzione della ground truth attribuibile per migliorare l'accuratezza della valutazione a livello di granularità fine. Inoltre, RAVine esamina l'interazione del modello con gli strumenti di ricerca durante l'intero processo iterativo, e tiene conto dei fattori di efficienza. Abbiamo valutato una serie di modelli utilizzando RAVine e derivato diverse intuizioni, che speriamo contribuiranno a far progredire lo sviluppo dei sistemi di ricerca agentica. Il codice e i dataset sono disponibili all'indirizzo https://github.com/SwordFaith/RAVine.
English
Agentic search, as a more autonomous and adaptive paradigm of retrieval augmentation, is driving the evolution of intelligent search systems. However, existing evaluation frameworks fail to align well with the goals of agentic search. First, the complex queries commonly used in current benchmarks often deviate from realistic user search scenarios. Second, prior approaches tend to introduce noise when extracting ground truth for end-to-end evaluations, leading to distorted assessments at a fine-grained level. Third, most current frameworks focus solely on the quality of final answers, neglecting the evaluation of the iterative process inherent to agentic search. To address these limitations, we propose RAVine -- a Reality-Aligned eValuation framework for agentic LLMs with search. RAVine targets multi-point queries and long-form answers that better reflect user intents, and introduces an attributable ground truth construction strategy to enhance the accuracy of fine-grained evaluation. Moreover, RAVine examines model's interaction with search tools throughout the iterative process, and accounts for factors of efficiency. We benchmark a series of models using RAVine and derive several insights, which we hope will contribute to advancing the development of agentic search systems. The code and datasets are available at https://github.com/SwordFaith/RAVine.
PDF281July 24, 2025