ChatPaper.aiChatPaper

RAVine: Avaliação Alinhada à Realidade para Busca Agente

RAVine: Reality-Aligned Evaluation for Agentic Search

July 22, 2025
Autores: Yilong Xu, Xiang Long, Zhi Zheng, Jinhua Gao
cs.AI

Resumo

A busca agentiva, como um paradigma mais autônomo e adaptativo de aumento de recuperação, está impulsionando a evolução dos sistemas de busca inteligente. No entanto, os frameworks de avaliação existentes não se alinham bem com os objetivos da busca agentiva. Primeiro, as consultas complexas comumente usadas nos benchmarks atuais frequentemente se desviam dos cenários realistas de busca do usuário. Segundo, as abordagens anteriores tendem a introduzir ruído ao extrair a verdade fundamental para avaliações de ponta a ponta, levando a avaliações distorcidas em um nível mais granular. Terceiro, a maioria dos frameworks atuais se concentra apenas na qualidade das respostas finais, negligenciando a avaliação do processo iterativo inerente à busca agentiva. Para abordar essas limitações, propomos o RAVine — um framework de avaliação alinhado à realidade para LLMs agentivas com busca. O RAVine visa consultas de múltiplos pontos e respostas de formato longo que melhor refletem as intenções do usuário, e introduz uma estratégia de construção de verdade fundamental atribuível para aumentar a precisão da avaliação granular. Além disso, o RAVine examina a interação do modelo com ferramentas de busca ao longo do processo iterativo e considera fatores de eficiência. Avaliamos uma série de modelos usando o RAVine e derivamos várias percepções, que esperamos contribuir para o avanço do desenvolvimento de sistemas de busca agentiva. O código e os conjuntos de dados estão disponíveis em https://github.com/SwordFaith/RAVine.
English
Agentic search, as a more autonomous and adaptive paradigm of retrieval augmentation, is driving the evolution of intelligent search systems. However, existing evaluation frameworks fail to align well with the goals of agentic search. First, the complex queries commonly used in current benchmarks often deviate from realistic user search scenarios. Second, prior approaches tend to introduce noise when extracting ground truth for end-to-end evaluations, leading to distorted assessments at a fine-grained level. Third, most current frameworks focus solely on the quality of final answers, neglecting the evaluation of the iterative process inherent to agentic search. To address these limitations, we propose RAVine -- a Reality-Aligned eValuation framework for agentic LLMs with search. RAVine targets multi-point queries and long-form answers that better reflect user intents, and introduces an attributable ground truth construction strategy to enhance the accuracy of fine-grained evaluation. Moreover, RAVine examines model's interaction with search tools throughout the iterative process, and accounts for factors of efficiency. We benchmark a series of models using RAVine and derive several insights, which we hope will contribute to advancing the development of agentic search systems. The code and datasets are available at https://github.com/SwordFaith/RAVine.
PDF281July 24, 2025