Mind2Web 2: Valutazione della ricerca agentica con Agente-come-Giudice
Mind2Web 2: Evaluating Agentic Search with Agent-as-a-Judge
June 26, 2025
Autori: Boyu Gou, Zanming Huang, Yuting Ning, Yu Gu, Michael Lin, Weijian Qi, Andrei Kopanev, Botao Yu, Bernal Jiménez Gutiérrez, Yiheng Shu, Chan Hee Song, Jiaman Wu, Shijie Chen, Hanane Nour Moussa, Tianshu Zhang, Jian Xie, Yifei Li, Tianci Xue, Zeyi Liao, Kai Zhang, Boyuan Zheng, Zhaowei Cai, Viktor Rozgic, Morteza Ziyadi, Huan Sun, Yu Su
cs.AI
Abstract
La ricerca agentiva, come i sistemi Deep Research, in cui i modelli linguistici di grandi dimensioni navigano autonomamente sul web, sintetizzano informazioni e restituiscono risposte complete supportate da citazioni, rappresenta un cambiamento significativo nel modo in cui gli utenti interagiscono con le informazioni su scala web. Sebbene prometta una maggiore efficienza e uno scarico cognitivo, la crescente complessità e apertura della ricerca agentiva ha superato i benchmark e le metodologie di valutazione esistenti, che presuppongono principalmente orizzonti di ricerca brevi e risposte statiche. In questo articolo, introduciamo Mind2Web 2, un benchmark di 130 task realistici, di alta qualità e a lungo termine che richiedono la navigazione web in tempo reale e un'ampia sintesi di informazioni, costruito con oltre 1.000 ore di lavoro umano. Per affrontare la sfida della valutazione di risposte complesse e variabili nel tempo, proponiamo un nuovo framework Agent-as-a-Judge. Il nostro metodo costruisce giudici agenti specifici per task basati su un design di rubriche strutturate ad albero per valutare automaticamente sia la correttezza delle risposte che l'attribuzione delle fonti. Conduciamo una valutazione completa di nove sistemi di ricerca agentiva all'avanguardia e delle prestazioni umane, insieme a un'analisi dettagliata degli errori per trarre spunti per lo sviluppo futuro. Il sistema con le migliori prestazioni, OpenAI Deep Research, può già raggiungere il 50-70% delle prestazioni umane impiegando la metà del tempo, mostrando un grande potenziale. Nel complesso, Mind2Web 2 fornisce una base rigorosa per lo sviluppo e il benchmarking della prossima generazione di sistemi di ricerca agentiva.
English
Agentic search such as Deep Research systems, where large language models
autonomously browse the web, synthesize information, and return comprehensive
citation-backed answers, represents a major shift in how users interact with
web-scale information. While promising greater efficiency and cognitive
offloading, the growing complexity and open-endedness of agentic search have
outpaced existing evaluation benchmarks and methodologies, which largely assume
short search horizons and static answers. In this paper, we introduce Mind2Web
2, a benchmark of 130 realistic, high-quality, and long-horizon tasks that
require real-time web browsing and extensive information synthesis, constructed
with over 1,000 hours of human labor. To address the challenge of evaluating
time-varying and complex answers, we propose a novel Agent-as-a-Judge
framework. Our method constructs task-specific judge agents based on a
tree-structured rubric design to automatically assess both answer correctness
and source attribution. We conduct a comprehensive evaluation of nine frontier
agentic search systems and human performance, along with a detailed error
analysis to draw insights for future development. The best-performing system,
OpenAI Deep Research, can already achieve 50-70% of human performance while
spending half the time, showing a great potential. Altogether, Mind2Web 2
provides a rigorous foundation for developing and benchmarking the next
generation of agentic search systems.