WebChoreArena: Avaliando Agentes de Navegação na Web em Tarefas Tediosas e Realistas
WebChoreArena: Evaluating Web Browsing Agents on Realistic Tedious Web Tasks
June 2, 2025
Autores: Atsuyuki Miyai, Zaiying Zhao, Kazuki Egashira, Atsuki Sato, Tatsumi Sunada, Shota Onohara, Hiromasa Yamanishi, Mashiro Toyooka, Kunato Nishina, Ryoma Maeda, Kiyoharu Aizawa, Toshihiko Yamasaki
cs.AI
Resumo
Impulsionado por um modelo de linguagem de grande escala (LLM), um agente de navegação na web opera navegadores de forma semelhante aos humanos e oferece um caminho altamente transparente para automatizar uma ampla gama de tarefas cotidianas. À medida que os agentes web se tornam cada vez mais capazes e demonstram proficiência em tarefas gerais de navegação, uma questão crítica surge: Eles podem ir além da navegação geral para lidar de forma robusta com tarefas tediosas e complexas, ou com tarefas que os humanos frequentemente evitam fazer? Neste artigo, apresentamos o WebChoreArena, um novo benchmark totalmente reproduzível composto por 532 tarefas cuidadosamente curadas, projetadas para estender o escopo do WebArena além da navegação geral para tarefas mais trabalhosas e tediosas. O WebChoreArena integra sistematicamente três desafios principais: (i) Tarefas de Memória Massiva, que exigem a recuperação precisa de grandes quantidades de informação nas observações, (ii) Tarefas de Cálculo, que demandam raciocínio matemático preciso, e (iii) Tarefas de Memória de Longo Prazo, que exigem memória de longo prazo em várias páginas da web. Construído sobre os quatro ambientes de simulação do WebArena, totalmente reproduzíveis e amplamente adotados, o WebChoreArena garante estrita reprodutibilidade e permite comparações diretas e justas com o benchmark estabelecido do WebArena, oferecendo insights importantes sobre o progresso dos agentes. Nossos resultados experimentais demonstram que, à medida que os LLMs evoluem, representados pelo GPT-4o, Claude 3.7 Sonnet e Gemini 2.5 Pro, melhorias significativas no desempenho são observadas no WebChoreArena. Esses achados sugerem que o WebChoreArena é bem adequado para medir o avanço dos LLMs de última geração com maior clareza. No entanto, os resultados também indicam que, mesmo com o Gemini 2.5 Pro, ainda há um espaço considerável para melhoria em comparação com o WebArena, destacando os desafios aumentados apresentados pelo WebChoreArena.
English
Powered by a large language model (LLM), a web browsing agent operates web
browsers in a human-like manner and offers a highly transparent path toward
automating a wide range of everyday tasks. As web agents become increasingly
capable and demonstrate proficiency in general browsing tasks, a critical
question emerges: Can they go beyond general browsing to robustly handle tasks
that are tedious and complex, or chores that humans often avoid doing
themselves? In this paper, we introduce WebChoreArena, a new fully reproducible
benchmark comprising 532 carefully curated tasks designed to extend the scope
of WebArena beyond general browsing to more labor-intensive and tedious tasks.
WebChoreArena systematically integrates three key challenges: (i) Massive
Memory tasks requiring accurate retrieval of large amounts of information in
the observations, (ii) Calculation tasks demanding precise mathematical
reasoning, and (iii) Long-Term Memory tasks necessitating long-term memory
across multiple webpages. Built on top of the fully reproducible and widely
adopted four WebArena simulation environments, WebChoreArena ensures strict
reproducibility and enables fair, direct comparisons with the established
WebArena benchmark, offering key insights into agent progress. Our experimental
results demonstrate that as LLMs evolve, represented by GPT-4o, Claude 3.7
Sonnet, and Gemini 2.5 Pro, significant improvements in performance are
observed on WebChoreArena. These findings suggest that WebChoreArena is
well-suited to measure the advancement of state-of-the-art LLMs with greater
clarity. Nevertheless, the results also indicate that even with Gemini 2.5 Pro,
there remains substantial room for improvement compared to WebArena,
highlighting the increased challenges posed by WebChoreArena.