Mind2Web 2: Avaliação da Busca Agente com Agente-como-Juiz

Resumo

A busca agentiva, como os sistemas de Deep Research, onde grandes modelos de linguagem navegam autonomamente na web, sintetizam informações e retornam respostas abrangentes e respaldadas por citações, representa uma grande mudança na forma como os usuários interagem com informações em escala web. Embora prometam maior eficiência e descarga cognitiva, a crescente complexidade e abertura da busca agentiva superaram os benchmarks e metodologias de avaliação existentes, que em grande parte assumem horizontes de busca curtos e respostas estáticas. Neste artigo, apresentamos o Mind2Web 2, um benchmark de 130 tarefas realistas, de alta qualidade e de longo horizonte que exigem navegação web em tempo real e extensa síntese de informações, construído com mais de 1.000 horas de trabalho humano. Para enfrentar o desafio de avaliar respostas complexas e variáveis no tempo, propomos uma nova estrutura de Agente-como-Juiz. Nosso método constrói agentes juízes específicos para cada tarefa com base em um design de rubrica estruturada em árvore para avaliar automaticamente tanto a correção da resposta quanto a atribuição de fontes. Realizamos uma avaliação abrangente de nove sistemas de busca agentiva de ponta e do desempenho humano, juntamente com uma análise detalhada de erros para extrair insights para o desenvolvimento futuro. O sistema de melhor desempenho, OpenAI Deep Research, já consegue atingir 50-70% do desempenho humano enquanto gasta metade do tempo, mostrando um grande potencial. No geral, o Mind2Web 2 fornece uma base rigorosa para o desenvolvimento e benchmarking da próxima geração de sistemas de busca agentiva.

English

Agentic search such as Deep Research systems, where large language models autonomously browse the web, synthesize information, and return comprehensive citation-backed answers, represents a major shift in how users interact with web-scale information. While promising greater efficiency and cognitive offloading, the growing complexity and open-endedness of agentic search have outpaced existing evaluation benchmarks and methodologies, which largely assume short search horizons and static answers. In this paper, we introduce Mind2Web 2, a benchmark of 130 realistic, high-quality, and long-horizon tasks that require real-time web browsing and extensive information synthesis, constructed with over 1,000 hours of human labor. To address the challenge of evaluating time-varying and complex answers, we propose a novel Agent-as-a-Judge framework. Our method constructs task-specific judge agents based on a tree-structured rubric design to automatically assess both answer correctness and source attribution. We conduct a comprehensive evaluation of nine frontier agentic search systems and human performance, along with a detailed error analysis to draw insights for future development. The best-performing system, OpenAI Deep Research, can already achieve 50-70% of human performance while spending half the time, showing a great potential. Altogether, Mind2Web 2 provides a rigorous foundation for developing and benchmarking the next generation of agentic search systems.

Mind2Web 2: Avaliação da Busca Agente com Agente-como-Juiz

Mind2Web 2: Evaluating Agentic Search with Agent-as-a-Judge

Resumo

Support