ChatPaper.aiChatPaper

Mind2Web 2: Bewertung agentenbasierter Suche mit Agent-as-a-Judge

Mind2Web 2: Evaluating Agentic Search with Agent-as-a-Judge

June 26, 2025
Autoren: Boyu Gou, Zanming Huang, Yuting Ning, Yu Gu, Michael Lin, Weijian Qi, Andrei Kopanev, Botao Yu, Bernal Jiménez Gutiérrez, Yiheng Shu, Chan Hee Song, Jiaman Wu, Shijie Chen, Hanane Nour Moussa, Tianshu Zhang, Jian Xie, Yifei Li, Tianci Xue, Zeyi Liao, Kai Zhang, Boyuan Zheng, Zhaowei Cai, Viktor Rozgic, Morteza Ziyadi, Huan Sun, Yu Su
cs.AI

Zusammenfassung

Agentische Suchsysteme wie Deep Research, bei denen große Sprachmodelle autonom im Web browsen, Informationen synthetisieren und umfassende, zitiergestützte Antworten liefern, markieren einen bedeutenden Wandel in der Art und Weise, wie Nutzer mit webbasierten Informationen interagieren. Obwohl sie größere Effizienz und kognitive Entlastung versprechen, haben die zunehmende Komplexität und Offenheit agentischer Suchsysteme die bestehenden Evaluierungsbenchmarks und Methoden überholt, die weitgehend von kurzen Suchhorizonten und statischen Antworten ausgehen. In diesem Artikel stellen wir Mind2Web 2 vor, einen Benchmark mit 130 realistischen, hochwertigen und langfristigen Aufgaben, die Echtzeit-Webbrowsing und umfangreiche Informationssynthese erfordern und mit über 1.000 Stunden menschlicher Arbeit erstellt wurden. Um die Herausforderung der Bewertung zeitlich variabler und komplexer Antworten zu bewältigen, schlagen wir ein neuartiges Agent-as-a-Judge-Framework vor. Unsere Methode konstruiert aufgabenbezogene Richter-Agenten basierend auf einem baumstrukturierten Bewertungsschema, um sowohl die Richtigkeit der Antworten als auch die Quellenzuordnung automatisch zu bewerten. Wir führen eine umfassende Bewertung von neun führenden agentischen Suchsystemen und der menschlichen Leistung durch, ergänzt durch eine detaillierte Fehleranalyse, um Erkenntnisse für die zukünftige Entwicklung zu gewinnen. Das leistungsstärkste System, OpenAI Deep Research, erreicht bereits 50-70 % der menschlichen Leistung bei halber Zeit, was ein großes Potenzial zeigt. Insgesamt bietet Mind2Web 2 eine solide Grundlage für die Entwicklung und Bewertung der nächsten Generation agentischer Suchsysteme.
English
Agentic search such as Deep Research systems, where large language models autonomously browse the web, synthesize information, and return comprehensive citation-backed answers, represents a major shift in how users interact with web-scale information. While promising greater efficiency and cognitive offloading, the growing complexity and open-endedness of agentic search have outpaced existing evaluation benchmarks and methodologies, which largely assume short search horizons and static answers. In this paper, we introduce Mind2Web 2, a benchmark of 130 realistic, high-quality, and long-horizon tasks that require real-time web browsing and extensive information synthesis, constructed with over 1,000 hours of human labor. To address the challenge of evaluating time-varying and complex answers, we propose a novel Agent-as-a-Judge framework. Our method constructs task-specific judge agents based on a tree-structured rubric design to automatically assess both answer correctness and source attribution. We conduct a comprehensive evaluation of nine frontier agentic search systems and human performance, along with a detailed error analysis to draw insights for future development. The best-performing system, OpenAI Deep Research, can already achieve 50-70% of human performance while spending half the time, showing a great potential. Altogether, Mind2Web 2 provides a rigorous foundation for developing and benchmarking the next generation of agentic search systems.
PDF371June 27, 2025