Mind2Web 2: Evaluación de Búsqueda Agéntica con Agente-como-Juez
Mind2Web 2: Evaluating Agentic Search with Agent-as-a-Judge
June 26, 2025
Autores: Boyu Gou, Zanming Huang, Yuting Ning, Yu Gu, Michael Lin, Weijian Qi, Andrei Kopanev, Botao Yu, Bernal Jiménez Gutiérrez, Yiheng Shu, Chan Hee Song, Jiaman Wu, Shijie Chen, Hanane Nour Moussa, Tianshu Zhang, Jian Xie, Yifei Li, Tianci Xue, Zeyi Liao, Kai Zhang, Boyuan Zheng, Zhaowei Cai, Viktor Rozgic, Morteza Ziyadi, Huan Sun, Yu Su
cs.AI
Resumen
La búsqueda agentiva, como los sistemas de Deep Research, donde los modelos de lenguaje de gran escala navegan autónomamente por la web, sintetizan información y devuelven respuestas completas respaldadas por citas, representa un cambio importante en cómo los usuarios interactúan con la información a escala web. Aunque promete una mayor eficiencia y descarga cognitiva, la creciente complejidad y apertura de la búsqueda agentiva ha superado los puntos de referencia y metodologías de evaluación existentes, que en gran medida asumen horizontes de búsqueda cortos y respuestas estáticas. En este artículo, presentamos Mind2Web 2, un punto de referencia de 130 tareas realistas, de alta calidad y de largo horizonte que requieren navegación web en tiempo real y una extensa síntesis de información, construido con más de 1,000 horas de trabajo humano. Para abordar el desafío de evaluar respuestas complejas y variables en el tiempo, proponemos un novedoso marco de Agente-como-Juez. Nuestro método construye agentes jueces específicos para cada tarea basados en un diseño de rúbrica de estructura arbórea para evaluar automáticamente tanto la corrección de las respuestas como la atribución de las fuentes. Realizamos una evaluación exhaustiva de nueve sistemas de búsqueda agentiva de vanguardia y del rendimiento humano, junto con un análisis detallado de errores para obtener ideas para el desarrollo futuro. El sistema con mejor rendimiento, OpenAI Deep Research, ya puede alcanzar el 50-70% del rendimiento humano mientras gasta la mitad del tiempo, mostrando un gran potencial. En conjunto, Mind2Web 2 proporciona una base rigurosa para el desarrollo y evaluación de la próxima generación de sistemas de búsqueda agentiva.
English
Agentic search such as Deep Research systems, where large language models
autonomously browse the web, synthesize information, and return comprehensive
citation-backed answers, represents a major shift in how users interact with
web-scale information. While promising greater efficiency and cognitive
offloading, the growing complexity and open-endedness of agentic search have
outpaced existing evaluation benchmarks and methodologies, which largely assume
short search horizons and static answers. In this paper, we introduce Mind2Web
2, a benchmark of 130 realistic, high-quality, and long-horizon tasks that
require real-time web browsing and extensive information synthesis, constructed
with over 1,000 hours of human labor. To address the challenge of evaluating
time-varying and complex answers, we propose a novel Agent-as-a-Judge
framework. Our method constructs task-specific judge agents based on a
tree-structured rubric design to automatically assess both answer correctness
and source attribution. We conduct a comprehensive evaluation of nine frontier
agentic search systems and human performance, along with a detailed error
analysis to draw insights for future development. The best-performing system,
OpenAI Deep Research, can already achieve 50-70% of human performance while
spending half the time, showing a great potential. Altogether, Mind2Web 2
provides a rigorous foundation for developing and benchmarking the next
generation of agentic search systems.