WebChoreArena: Bewertung von Web-Browsing-Agenten bei realistischen, monotonen Web-Aufgaben
WebChoreArena: Evaluating Web Browsing Agents on Realistic Tedious Web Tasks
June 2, 2025
Autoren: Atsuyuki Miyai, Zaiying Zhao, Kazuki Egashira, Atsuki Sato, Tatsumi Sunada, Shota Onohara, Hiromasa Yamanishi, Mashiro Toyooka, Kunato Nishina, Ryoma Maeda, Kiyoharu Aizawa, Toshihiko Yamasaki
cs.AI
Zusammenfassung
Angetrieben von einem großen Sprachmodell (LLM) operiert ein Web-Browsing-Agent auf menschenähnliche Weise in Webbrowsern und bietet einen hochtransparenten Ansatz zur Automatisierung einer Vielzahl alltäglicher Aufgaben. Da Web-Agenten zunehmend leistungsfähiger werden und Kompetenz in allgemeinen Browsing-Aufgaben demonstrieren, stellt sich eine kritische Frage: Können sie über allgemeines Browsing hinaus robust Aufgaben bewältigen, die mühsam und komplex sind oder Tätigkeiten, die Menschen oft selbst vermeiden? In diesem Artikel stellen wir WebChoreArena vor, einen neuen, vollständig reproduzierbaren Benchmark, der 532 sorgfältig kuratierte Aufgaben umfasst, die darauf abzielen, den Anwendungsbereich von WebArena über allgemeines Browsing hinaus auf arbeitsintensivere und mühsamere Aufgaben zu erweitern. WebChoreArena integriert systematisch drei zentrale Herausforderungen: (i) Massive-Speicher-Aufgaben, die eine präzise Abrufung großer Informationsmengen in den Beobachtungen erfordern, (ii) Berechnungsaufgaben, die präzises mathematisches Denken verlangen, und (iii) Langzeitgedächtnis-Aufgaben, die ein langfristiges Gedächtnis über mehrere Webseiten hinweg erfordern. Aufbauend auf den vollständig reproduzierbaren und weit verbreiteten vier WebArena-Simulationsumgebungen gewährleistet WebChoreArena strikte Reproduzierbarkeit und ermöglicht faire, direkte Vergleiche mit dem etablierten WebArena-Benchmark, wodurch wichtige Einblicke in den Fortschritt von Agenten gewonnen werden. Unsere experimentellen Ergebnisse zeigen, dass sich mit der Weiterentwicklung von LLMs, repräsentiert durch GPT-4o, Claude 3.7 Sonnet und Gemini 2.5 Pro, signifikante Leistungsverbesserungen in WebChoreArena beobachten lassen. Diese Ergebnisse deuten darauf hin, dass WebChoreArena gut geeignet ist, den Fortschritt modernster LLMs mit größerer Klarheit zu messen. Dennoch zeigen die Ergebnisse auch, dass selbst mit Gemini 2.5 Pro im Vergleich zu WebArena noch erheblicher Verbesserungsbedarf besteht, was die erhöhten Herausforderungen von WebChoreArena unterstreicht.
English
Powered by a large language model (LLM), a web browsing agent operates web
browsers in a human-like manner and offers a highly transparent path toward
automating a wide range of everyday tasks. As web agents become increasingly
capable and demonstrate proficiency in general browsing tasks, a critical
question emerges: Can they go beyond general browsing to robustly handle tasks
that are tedious and complex, or chores that humans often avoid doing
themselves? In this paper, we introduce WebChoreArena, a new fully reproducible
benchmark comprising 532 carefully curated tasks designed to extend the scope
of WebArena beyond general browsing to more labor-intensive and tedious tasks.
WebChoreArena systematically integrates three key challenges: (i) Massive
Memory tasks requiring accurate retrieval of large amounts of information in
the observations, (ii) Calculation tasks demanding precise mathematical
reasoning, and (iii) Long-Term Memory tasks necessitating long-term memory
across multiple webpages. Built on top of the fully reproducible and widely
adopted four WebArena simulation environments, WebChoreArena ensures strict
reproducibility and enables fair, direct comparisons with the established
WebArena benchmark, offering key insights into agent progress. Our experimental
results demonstrate that as LLMs evolve, represented by GPT-4o, Claude 3.7
Sonnet, and Gemini 2.5 Pro, significant improvements in performance are
observed on WebChoreArena. These findings suggest that WebChoreArena is
well-suited to measure the advancement of state-of-the-art LLMs with greater
clarity. Nevertheless, the results also indicate that even with Gemini 2.5 Pro,
there remains substantial room for improvement compared to WebArena,
highlighting the increased challenges posed by WebChoreArena.