WebChoreArena: Valutazione di Agenti di Navigazione Web su Compiti Web Tediosi e Realistici
WebChoreArena: Evaluating Web Browsing Agents on Realistic Tedious Web Tasks
June 2, 2025
Autori: Atsuyuki Miyai, Zaiying Zhao, Kazuki Egashira, Atsuki Sato, Tatsumi Sunada, Shota Onohara, Hiromasa Yamanishi, Mashiro Toyooka, Kunato Nishina, Ryoma Maeda, Kiyoharu Aizawa, Toshihiko Yamasaki
cs.AI
Abstract
Alimentato da un modello linguistico di grandi dimensioni (LLM), un agente di navigazione web opera i browser in modo simile a quello umano e offre un percorso altamente trasparente verso l'automazione di un'ampia gamma di attività quotidiane. Man mano che gli agenti web diventano sempre più capaci e dimostrano competenza nelle attività di navigazione generale, emerge una domanda cruciale: possono andare oltre la navigazione generale per gestire in modo robusto attività noiose e complesse, o compiti che gli esseri umani spesso evitano di fare da soli? In questo articolo, introduciamo WebChoreArena, un nuovo benchmark completamente riproducibile che comprende 532 attività accuratamente selezionate, progettate per estendere l'ambito di WebArena oltre la navigazione generale verso attività più laboriose e noiose. WebChoreArena integra sistematicamente tre sfide chiave: (i) attività di Memoria Massiva che richiedono il recupero accurato di grandi quantità di informazioni nelle osservazioni, (ii) attività di Calcolo che richiedono un ragionamento matematico preciso, e (iii) attività di Memoria a Lungo Termine che necessitano di una memoria a lungo termine attraverso più pagine web. Costruito sulle quattro ambientazioni di simulazione di WebArena, completamente riproducibili e ampiamente adottate, WebChoreArena garantisce una rigorosa riproducibilità e consente confronti diretti ed equi con il benchmark consolidato di WebArena, offrendo intuizioni chiave sui progressi degli agenti. I nostri risultati sperimentali dimostrano che, con l'evoluzione degli LLM, rappresentati da GPT-4o, Claude 3.7 Sonnet e Gemini 2.5 Pro, si osservano miglioramenti significativi nelle prestazioni su WebChoreArena. Questi risultati suggeriscono che WebChoreArena è ben adatto a misurare con maggiore chiarezza i progressi degli LLM all'avanguardia. Tuttavia, i risultati indicano anche che, anche con Gemini 2.5 Pro, rimane un ampio margine di miglioramento rispetto a WebArena, evidenziando le maggiori sfide poste da WebChoreArena.
English
Powered by a large language model (LLM), a web browsing agent operates web
browsers in a human-like manner and offers a highly transparent path toward
automating a wide range of everyday tasks. As web agents become increasingly
capable and demonstrate proficiency in general browsing tasks, a critical
question emerges: Can they go beyond general browsing to robustly handle tasks
that are tedious and complex, or chores that humans often avoid doing
themselves? In this paper, we introduce WebChoreArena, a new fully reproducible
benchmark comprising 532 carefully curated tasks designed to extend the scope
of WebArena beyond general browsing to more labor-intensive and tedious tasks.
WebChoreArena systematically integrates three key challenges: (i) Massive
Memory tasks requiring accurate retrieval of large amounts of information in
the observations, (ii) Calculation tasks demanding precise mathematical
reasoning, and (iii) Long-Term Memory tasks necessitating long-term memory
across multiple webpages. Built on top of the fully reproducible and widely
adopted four WebArena simulation environments, WebChoreArena ensures strict
reproducibility and enables fair, direct comparisons with the established
WebArena benchmark, offering key insights into agent progress. Our experimental
results demonstrate that as LLMs evolve, represented by GPT-4o, Claude 3.7
Sonnet, and Gemini 2.5 Pro, significant improvements in performance are
observed on WebChoreArena. These findings suggest that WebChoreArena is
well-suited to measure the advancement of state-of-the-art LLMs with greater
clarity. Nevertheless, the results also indicate that even with Gemini 2.5 Pro,
there remains substantial room for improvement compared to WebArena,
highlighting the increased challenges posed by WebChoreArena.