WebChoreArena: Evaluación de agentes de navegación web en tareas web tediosas y realistas
WebChoreArena: Evaluating Web Browsing Agents on Realistic Tedious Web Tasks
June 2, 2025
Autores: Atsuyuki Miyai, Zaiying Zhao, Kazuki Egashira, Atsuki Sato, Tatsumi Sunada, Shota Onohara, Hiromasa Yamanishi, Mashiro Toyooka, Kunato Nishina, Ryoma Maeda, Kiyoharu Aizawa, Toshihiko Yamasaki
cs.AI
Resumen
Impulsado por un modelo de lenguaje grande (LLM, por sus siglas en inglés), un agente de navegación web opera navegadores de manera similar a los humanos y ofrece un camino altamente transparente hacia la automatización de una amplia gama de tareas cotidianas. A medida que los agentes web se vuelven cada vez más capaces y demuestran competencia en tareas generales de navegación, surge una pregunta crítica: ¿Pueden ir más allá de la navegación general para manejar de manera robusta tareas tediosas y complejas, o aquellas que los humanos a menudo evitan realizar por sí mismos? En este artículo, presentamos WebChoreArena, un nuevo benchmark completamente reproducible que comprende 532 tareas cuidadosamente seleccionadas, diseñadas para extender el alcance de WebArena más allá de la navegación general hacia tareas más laboriosas y tediosas. WebChoreArena integra sistemáticamente tres desafíos clave: (i) tareas de Memoria Masiva que requieren la recuperación precisa de grandes cantidades de información en las observaciones, (ii) tareas de Cálculo que exigen razonamiento matemático preciso, y (iii) tareas de Memoria a Largo Plazo que necesitan memoria a largo plazo a través de múltiples páginas web. Construido sobre los cuatro entornos de simulación de WebArena, completamente reproducibles y ampliamente adoptados, WebChoreArena garantiza una estricta reproducibilidad y permite comparaciones directas y justas con el benchmark establecido de WebArena, ofreciendo insights clave sobre el progreso de los agentes. Nuestros resultados experimentales demuestran que, a medida que los LLM evolucionan, representados por GPT-4o, Claude 3.7 Sonnet y Gemini 2.5 Pro, se observan mejoras significativas en el rendimiento en WebChoreArena. Estos hallazgos sugieren que WebChoreArena está bien adaptado para medir el avance de los LLM de última generación con mayor claridad. Sin embargo, los resultados también indican que, incluso con Gemini 2.5 Pro, aún queda un margen sustancial de mejora en comparación con WebArena, destacando los mayores desafíos que plantea WebChoreArena.
English
Powered by a large language model (LLM), a web browsing agent operates web
browsers in a human-like manner and offers a highly transparent path toward
automating a wide range of everyday tasks. As web agents become increasingly
capable and demonstrate proficiency in general browsing tasks, a critical
question emerges: Can they go beyond general browsing to robustly handle tasks
that are tedious and complex, or chores that humans often avoid doing
themselves? In this paper, we introduce WebChoreArena, a new fully reproducible
benchmark comprising 532 carefully curated tasks designed to extend the scope
of WebArena beyond general browsing to more labor-intensive and tedious tasks.
WebChoreArena systematically integrates three key challenges: (i) Massive
Memory tasks requiring accurate retrieval of large amounts of information in
the observations, (ii) Calculation tasks demanding precise mathematical
reasoning, and (iii) Long-Term Memory tasks necessitating long-term memory
across multiple webpages. Built on top of the fully reproducible and widely
adopted four WebArena simulation environments, WebChoreArena ensures strict
reproducibility and enables fair, direct comparisons with the established
WebArena benchmark, offering key insights into agent progress. Our experimental
results demonstrate that as LLMs evolve, represented by GPT-4o, Claude 3.7
Sonnet, and Gemini 2.5 Pro, significant improvements in performance are
observed on WebChoreArena. These findings suggest that WebChoreArena is
well-suited to measure the advancement of state-of-the-art LLMs with greater
clarity. Nevertheless, the results also indicate that even with Gemini 2.5 Pro,
there remains substantial room for improvement compared to WebArena,
highlighting the increased challenges posed by WebChoreArena.