ChatPaper.aiChatPaper

Mind2Web 2: エージェント・アズ・ア・ジャッジを用いたエージェンシック検索の評価

Mind2Web 2: Evaluating Agentic Search with Agent-as-a-Judge

June 26, 2025
著者: Boyu Gou, Zanming Huang, Yuting Ning, Yu Gu, Michael Lin, Weijian Qi, Andrei Kopanev, Botao Yu, Bernal Jiménez Gutiérrez, Yiheng Shu, Chan Hee Song, Jiaman Wu, Shijie Chen, Hanane Nour Moussa, Tianshu Zhang, Jian Xie, Yifei Li, Tianci Xue, Zeyi Liao, Kai Zhang, Boyuan Zheng, Zhaowei Cai, Viktor Rozgic, Morteza Ziyadi, Huan Sun, Yu Su
cs.AI

要旨

Deep Researchシステムのようなエージェント型検索は、大規模言語モデルが自律的にウェブを閲覧し、情報を統合し、引用付きの包括的な回答を返すことで、ユーザーがウェブ規模の情報と対話する方法に大きな変革をもたらしています。効率性と認知的負荷の軽減を約束する一方で、エージェント型検索の複雑さと開放性の増大は、短い検索期間と静的な回答を前提とした既存の評価ベンチマークや方法論を凌駕しています。本論文では、リアルタイムのウェブ閲覧と広範な情報統合を必要とする130の現実的で高品質な長期タスクからなるMind2Web 2ベンチマークを紹介します。これは1,000時間以上の人的労力をかけて構築されました。時間的に変化し複雑な回答を評価する課題に対処するため、新たな「エージェント・アズ・ア・ジャッジ」フレームワークを提案します。この方法では、タスク固有のジャッジエージェントをツリー構造のルーブリック設計に基づいて構築し、回答の正確性と出典の帰属を自動的に評価します。9つの最先端エージェント型検索システムと人間のパフォーマンスを包括的に評価し、詳細なエラー分析を通じて今後の開発に向けた洞察を導き出します。最高性能のシステムであるOpenAI Deep Researchは、人間のパフォーマンスの50-70%を達成しつつ、所要時間を半分に抑えることができ、大きな可能性を示しています。全体として、Mind2Web 2は次世代のエージェント型検索システムの開発とベンチマークのための厳密な基盤を提供します。
English
Agentic search such as Deep Research systems, where large language models autonomously browse the web, synthesize information, and return comprehensive citation-backed answers, represents a major shift in how users interact with web-scale information. While promising greater efficiency and cognitive offloading, the growing complexity and open-endedness of agentic search have outpaced existing evaluation benchmarks and methodologies, which largely assume short search horizons and static answers. In this paper, we introduce Mind2Web 2, a benchmark of 130 realistic, high-quality, and long-horizon tasks that require real-time web browsing and extensive information synthesis, constructed with over 1,000 hours of human labor. To address the challenge of evaluating time-varying and complex answers, we propose a novel Agent-as-a-Judge framework. Our method constructs task-specific judge agents based on a tree-structured rubric design to automatically assess both answer correctness and source attribution. We conduct a comprehensive evaluation of nine frontier agentic search systems and human performance, along with a detailed error analysis to draw insights for future development. The best-performing system, OpenAI Deep Research, can already achieve 50-70% of human performance while spending half the time, showing a great potential. Altogether, Mind2Web 2 provides a rigorous foundation for developing and benchmarking the next generation of agentic search systems.
PDF361June 27, 2025