WebChoreArena : Évaluation des agents de navigation web sur des tâches web fastidieuses et réalistes
WebChoreArena: Evaluating Web Browsing Agents on Realistic Tedious Web Tasks
June 2, 2025
Auteurs: Atsuyuki Miyai, Zaiying Zhao, Kazuki Egashira, Atsuki Sato, Tatsumi Sunada, Shota Onohara, Hiromasa Yamanishi, Mashiro Toyooka, Kunato Nishina, Ryoma Maeda, Kiyoharu Aizawa, Toshihiko Yamasaki
cs.AI
Résumé
Alimenté par un grand modèle de langage (LLM), un agent de navigation web opère les navigateurs de manière similaire à un humain et offre une voie hautement transparente pour automatiser un large éventail de tâches quotidiennes. Alors que les agents web deviennent de plus en plus performants et démontrent leur maîtrise des tâches de navigation générale, une question cruciale émerge : Peuvent-ils aller au-delà de la navigation générale pour gérer de manière robuste des tâches fastidieuses et complexes, ou des corvées que les humains évitent souvent de faire eux-mêmes ? Dans cet article, nous présentons WebChoreArena, un nouveau benchmark entièrement reproductible comprenant 532 tâches soigneusement sélectionnées, conçues pour étendre la portée de WebArena au-delà de la navigation générale vers des tâches plus laborieuses et fastidieuses. WebChoreArena intègre systématiquement trois défis clés : (i) les tâches de Mémoire Massive nécessitant la récupération précise de grandes quantités d'informations dans les observations, (ii) les tâches de Calcul exigeant un raisonnement mathématique précis, et (iii) les tâches de Mémoire à Long Terme nécessitant une mémoire à long terme sur plusieurs pages web. Construit sur les quatre environnements de simulation de WebArena, entièrement reproductibles et largement adoptés, WebChoreArena garantit une reproductibilité stricte et permet des comparaisons directes et équitables avec le benchmark établi de WebArena, offrant des insights clés sur les progrès des agents. Nos résultats expérimentaux démontrent qu'à mesure que les LLM évoluent, représentés par GPT-4o, Claude 3.7 Sonnet et Gemini 2.5 Pro, des améliorations significatives des performances sont observées sur WebChoreArena. Ces résultats suggèrent que WebChoreArena est bien adapté pour mesurer les avancées des LLM de pointe avec une plus grande clarté. Néanmoins, les résultats indiquent également que même avec Gemini 2.5 Pro, il reste une marge d'amélioration substantielle par rapport à WebArena, soulignant les défis accrus posés par WebChoreArena.
English
Powered by a large language model (LLM), a web browsing agent operates web
browsers in a human-like manner and offers a highly transparent path toward
automating a wide range of everyday tasks. As web agents become increasingly
capable and demonstrate proficiency in general browsing tasks, a critical
question emerges: Can they go beyond general browsing to robustly handle tasks
that are tedious and complex, or chores that humans often avoid doing
themselves? In this paper, we introduce WebChoreArena, a new fully reproducible
benchmark comprising 532 carefully curated tasks designed to extend the scope
of WebArena beyond general browsing to more labor-intensive and tedious tasks.
WebChoreArena systematically integrates three key challenges: (i) Massive
Memory tasks requiring accurate retrieval of large amounts of information in
the observations, (ii) Calculation tasks demanding precise mathematical
reasoning, and (iii) Long-Term Memory tasks necessitating long-term memory
across multiple webpages. Built on top of the fully reproducible and widely
adopted four WebArena simulation environments, WebChoreArena ensures strict
reproducibility and enables fair, direct comparisons with the established
WebArena benchmark, offering key insights into agent progress. Our experimental
results demonstrate that as LLMs evolve, represented by GPT-4o, Claude 3.7
Sonnet, and Gemini 2.5 Pro, significant improvements in performance are
observed on WebChoreArena. These findings suggest that WebChoreArena is
well-suited to measure the advancement of state-of-the-art LLMs with greater
clarity. Nevertheless, the results also indicate that even with Gemini 2.5 Pro,
there remains substantial room for improvement compared to WebArena,
highlighting the increased challenges posed by WebChoreArena.