Mind2Web 2: Avaliação da Busca Agente com Agente-como-Juiz
Mind2Web 2: Evaluating Agentic Search with Agent-as-a-Judge
June 26, 2025
Autores: Boyu Gou, Zanming Huang, Yuting Ning, Yu Gu, Michael Lin, Weijian Qi, Andrei Kopanev, Botao Yu, Bernal Jiménez Gutiérrez, Yiheng Shu, Chan Hee Song, Jiaman Wu, Shijie Chen, Hanane Nour Moussa, Tianshu Zhang, Jian Xie, Yifei Li, Tianci Xue, Zeyi Liao, Kai Zhang, Boyuan Zheng, Zhaowei Cai, Viktor Rozgic, Morteza Ziyadi, Huan Sun, Yu Su
cs.AI
Resumo
A busca agentiva, como os sistemas de Deep Research, onde grandes modelos de linguagem navegam autonomamente na web, sintetizam informações e retornam respostas abrangentes e respaldadas por citações, representa uma grande mudança na forma como os usuários interagem com informações em escala web. Embora prometam maior eficiência e descarga cognitiva, a crescente complexidade e abertura da busca agentiva superaram os benchmarks e metodologias de avaliação existentes, que em grande parte assumem horizontes de busca curtos e respostas estáticas. Neste artigo, apresentamos o Mind2Web 2, um benchmark de 130 tarefas realistas, de alta qualidade e de longo horizonte que exigem navegação web em tempo real e extensa síntese de informações, construído com mais de 1.000 horas de trabalho humano. Para enfrentar o desafio de avaliar respostas complexas e variáveis no tempo, propomos uma nova estrutura de Agente-como-Juiz. Nosso método constrói agentes juízes específicos para cada tarefa com base em um design de rubrica estruturada em árvore para avaliar automaticamente tanto a correção da resposta quanto a atribuição de fontes. Realizamos uma avaliação abrangente de nove sistemas de busca agentiva de ponta e do desempenho humano, juntamente com uma análise detalhada de erros para extrair insights para o desenvolvimento futuro. O sistema de melhor desempenho, OpenAI Deep Research, já consegue atingir 50-70% do desempenho humano enquanto gasta metade do tempo, mostrando um grande potencial. No geral, o Mind2Web 2 fornece uma base rigorosa para o desenvolvimento e benchmarking da próxima geração de sistemas de busca agentiva.
English
Agentic search such as Deep Research systems, where large language models
autonomously browse the web, synthesize information, and return comprehensive
citation-backed answers, represents a major shift in how users interact with
web-scale information. While promising greater efficiency and cognitive
offloading, the growing complexity and open-endedness of agentic search have
outpaced existing evaluation benchmarks and methodologies, which largely assume
short search horizons and static answers. In this paper, we introduce Mind2Web
2, a benchmark of 130 realistic, high-quality, and long-horizon tasks that
require real-time web browsing and extensive information synthesis, constructed
with over 1,000 hours of human labor. To address the challenge of evaluating
time-varying and complex answers, we propose a novel Agent-as-a-Judge
framework. Our method constructs task-specific judge agents based on a
tree-structured rubric design to automatically assess both answer correctness
and source attribution. We conduct a comprehensive evaluation of nine frontier
agentic search systems and human performance, along with a detailed error
analysis to draw insights for future development. The best-performing system,
OpenAI Deep Research, can already achieve 50-70% of human performance while
spending half the time, showing a great potential. Altogether, Mind2Web 2
provides a rigorous foundation for developing and benchmarking the next
generation of agentic search systems.