ChatPaper.aiChatPaper

Mind2Web 2: Evaluatie van Agentisch Zoeken met Agent-als-Rechter

Mind2Web 2: Evaluating Agentic Search with Agent-as-a-Judge

June 26, 2025
Auteurs: Boyu Gou, Zanming Huang, Yuting Ning, Yu Gu, Michael Lin, Weijian Qi, Andrei Kopanev, Botao Yu, Bernal Jiménez Gutiérrez, Yiheng Shu, Chan Hee Song, Jiaman Wu, Shijie Chen, Hanane Nour Moussa, Tianshu Zhang, Jian Xie, Yifei Li, Tianci Xue, Zeyi Liao, Kai Zhang, Boyuan Zheng, Zhaowei Cai, Viktor Rozgic, Morteza Ziyadi, Huan Sun, Yu Su
cs.AI

Samenvatting

Agentische zoeksystemen zoals Deep Research-systemen, waarbij grote taalmodellen autonoom het web doorzoeken, informatie synthetiseren en uitgebreide, met citaties onderbouwde antwoorden teruggeven, vertegenwoordigen een grote verschuiving in hoe gebruikers omgaan met informatie op webschaal. Hoewel ze een grotere efficiëntie en cognitieve ontlasting beloven, hebben de toenemende complexiteit en openheid van agentisch zoeken de bestaande evaluatiebenchmarks en -methodologieën overstegen, die grotendeels uitgaan van korte zoekhorizons en statische antwoorden. In dit artikel introduceren we Mind2Web 2, een benchmark van 130 realistische, hoogwaardige en langetermijntaken die realtime webbrowsing en uitgebreide informatiesynthese vereisen, opgebouwd met meer dan 1.000 uur menselijke arbeid. Om de uitdaging van het evalueren van tijdvariërende en complexe antwoorden aan te pakken, stellen we een nieuw Agent-as-a-Judge-framework voor. Onze methode construeert taakspecifieke beoordelaarsagenten op basis van een boomstructuurrubriekontwerp om zowel de correctheid van antwoorden als bronvermelding automatisch te beoordelen. We voeren een uitgebreide evaluatie uit van negen toonaangevende agentische zoeksystemen en menselijke prestaties, samen met een gedetailleerde foutenanalyse om inzichten te verkrijgen voor toekomstige ontwikkeling. Het best presterende systeem, OpenAI Deep Research, kan al 50-70% van de menselijke prestaties bereiken terwijl het de helft van de tijd besteedt, wat een groot potentieel laat zien. Samen biedt Mind2Web 2 een rigoureuze basis voor de ontwikkeling en benchmarking van de volgende generatie agentische zoeksystemen.
English
Agentic search such as Deep Research systems, where large language models autonomously browse the web, synthesize information, and return comprehensive citation-backed answers, represents a major shift in how users interact with web-scale information. While promising greater efficiency and cognitive offloading, the growing complexity and open-endedness of agentic search have outpaced existing evaluation benchmarks and methodologies, which largely assume short search horizons and static answers. In this paper, we introduce Mind2Web 2, a benchmark of 130 realistic, high-quality, and long-horizon tasks that require real-time web browsing and extensive information synthesis, constructed with over 1,000 hours of human labor. To address the challenge of evaluating time-varying and complex answers, we propose a novel Agent-as-a-Judge framework. Our method constructs task-specific judge agents based on a tree-structured rubric design to automatically assess both answer correctness and source attribution. We conduct a comprehensive evaluation of nine frontier agentic search systems and human performance, along with a detailed error analysis to draw insights for future development. The best-performing system, OpenAI Deep Research, can already achieve 50-70% of human performance while spending half the time, showing a great potential. Altogether, Mind2Web 2 provides a rigorous foundation for developing and benchmarking the next generation of agentic search systems.
PDF451June 27, 2025