Mind2Web 2: 에이전트-판사로서의 에이전트 검색 평가
Mind2Web 2: Evaluating Agentic Search with Agent-as-a-Judge
June 26, 2025
저자: Boyu Gou, Zanming Huang, Yuting Ning, Yu Gu, Michael Lin, Weijian Qi, Andrei Kopanev, Botao Yu, Bernal Jiménez Gutiérrez, Yiheng Shu, Chan Hee Song, Jiaman Wu, Shijie Chen, Hanane Nour Moussa, Tianshu Zhang, Jian Xie, Yifei Li, Tianci Xue, Zeyi Liao, Kai Zhang, Boyuan Zheng, Zhaowei Cai, Viktor Rozgic, Morteza Ziyadi, Huan Sun, Yu Su
cs.AI
초록
웹을 자율적으로 탐색하고 정보를 종합하며 출처가 명확한 포괄적인 답변을 제공하는 Deep Research 시스템과 같은 에이전트 기반 검색은 사용자가 웹 규모의 정보와 상호작용하는 방식에 있어 큰 전환을 의미합니다. 이러한 검색 방식은 더 높은 효율성과 인지적 부담 감소를 약속하지만, 에이전트 기반 검색의 복잡성과 개방성이 기존의 평가 벤치마크와 방법론을 앞질러 나가고 있습니다. 기존 평가 방식은 주로 짧은 검색 범위와 정적인 답변을 가정하고 있습니다. 본 논문에서는 1,000시간 이상의 인간 노동을 통해 구축된 130개의 현실적이고 고품질이며 장기적인 작업으로 구성된 Mind2Web 2 벤치마크를 소개합니다. 이 작업들은 실시간 웹 탐색과 광범위한 정보 종합을 요구합니다. 시간에 따라 변하고 복잡한 답변을 평가하는 문제를 해결하기 위해, 우리는 새로운 Agent-as-a-Judge 프레임워크를 제안합니다. 이 방법은 트리 구조의 루브릭 설계를 기반으로 작업별 판단 에이전트를 구성하여 답변의 정확성과 출처 표시를 자동으로 평가합니다. 우리는 9개의 최첨단 에이전트 기반 검색 시스템과 인간의 성능을 포괄적으로 평가하고, 미래 개발을 위한 통찰을 도출하기 위해 상세한 오류 분석을 수행했습니다. 가장 성능이 뛰어난 시스템인 OpenAI Deep Research는 인간 성능의 50-70%를 달성하면서도 절반의 시간을 소비하여 큰 잠재력을 보여주었습니다. 전반적으로, Mind2Web 2는 차세대 에이전트 기반 검색 시스템의 개발과 벤치마킹을 위한 엄격한 기반을 제공합니다.
English
Agentic search such as Deep Research systems, where large language models
autonomously browse the web, synthesize information, and return comprehensive
citation-backed answers, represents a major shift in how users interact with
web-scale information. While promising greater efficiency and cognitive
offloading, the growing complexity and open-endedness of agentic search have
outpaced existing evaluation benchmarks and methodologies, which largely assume
short search horizons and static answers. In this paper, we introduce Mind2Web
2, a benchmark of 130 realistic, high-quality, and long-horizon tasks that
require real-time web browsing and extensive information synthesis, constructed
with over 1,000 hours of human labor. To address the challenge of evaluating
time-varying and complex answers, we propose a novel Agent-as-a-Judge
framework. Our method constructs task-specific judge agents based on a
tree-structured rubric design to automatically assess both answer correctness
and source attribution. We conduct a comprehensive evaluation of nine frontier
agentic search systems and human performance, along with a detailed error
analysis to draw insights for future development. The best-performing system,
OpenAI Deep Research, can already achieve 50-70% of human performance while
spending half the time, showing a great potential. Altogether, Mind2Web 2
provides a rigorous foundation for developing and benchmarking the next
generation of agentic search systems.