Mind2Web 2: Оценка агентного поиска с использованием агента в роли судьи
Mind2Web 2: Evaluating Agentic Search with Agent-as-a-Judge
June 26, 2025
Авторы: Boyu Gou, Zanming Huang, Yuting Ning, Yu Gu, Michael Lin, Weijian Qi, Andrei Kopanev, Botao Yu, Bernal Jiménez Gutiérrez, Yiheng Shu, Chan Hee Song, Jiaman Wu, Shijie Chen, Hanane Nour Moussa, Tianshu Zhang, Jian Xie, Yifei Li, Tianci Xue, Zeyi Liao, Kai Zhang, Boyuan Zheng, Zhaowei Cai, Viktor Rozgic, Morteza Ziyadi, Huan Sun, Yu Su
cs.AI
Аннотация
Агентный поиск, такой как системы Deep Research, где большие языковые модели автономно просматривают веб, синтезируют информацию и возвращают комплексные ответы с цитированием, представляет собой значительный сдвиг в том, как пользователи взаимодействуют с информацией веб-масштаба. Хотя такие системы обещают большую эффективность и когнитивную разгрузку, растущая сложность и открытость агентного поиска опережают существующие методы оценки и бенчмарки, которые в основном предполагают короткие временные горизонты поиска и статичные ответы. В этой статье мы представляем Mind2Web 2 — бенчмарк из 130 реалистичных, высококачественных и долгосрочных задач, требующих реального веб-серфинга и обширного синтеза информации, созданный с использованием более 1000 часов человеческого труда. Для решения проблемы оценки изменяющихся во времени и сложных ответов мы предлагаем новую структуру "Агент-как-Судья". Наш метод создает специализированных агентов-судей на основе древовидной структуры критериев для автоматической оценки как правильности ответов, так и атрибуции источников. Мы проводим всестороннюю оценку девяти передовых систем агентного поиска и человеческой производительности, а также детальный анализ ошибок для получения инсайтов для будущего развития. Лучшая система, OpenAI Deep Research, уже может достигать 50-70% человеческой производительности, затрачивая вдвое меньше времени, что демонстрирует огромный потенциал. В целом, Mind2Web 2 предоставляет строгую основу для разработки и тестирования следующего поколения систем агентного поиска.
English
Agentic search such as Deep Research systems, where large language models
autonomously browse the web, synthesize information, and return comprehensive
citation-backed answers, represents a major shift in how users interact with
web-scale information. While promising greater efficiency and cognitive
offloading, the growing complexity and open-endedness of agentic search have
outpaced existing evaluation benchmarks and methodologies, which largely assume
short search horizons and static answers. In this paper, we introduce Mind2Web
2, a benchmark of 130 realistic, high-quality, and long-horizon tasks that
require real-time web browsing and extensive information synthesis, constructed
with over 1,000 hours of human labor. To address the challenge of evaluating
time-varying and complex answers, we propose a novel Agent-as-a-Judge
framework. Our method constructs task-specific judge agents based on a
tree-structured rubric design to automatically assess both answer correctness
and source attribution. We conduct a comprehensive evaluation of nine frontier
agentic search systems and human performance, along with a detailed error
analysis to draw insights for future development. The best-performing system,
OpenAI Deep Research, can already achieve 50-70% of human performance while
spending half the time, showing a great potential. Altogether, Mind2Web 2
provides a rigorous foundation for developing and benchmarking the next
generation of agentic search systems.