WebChoreArena: Bewertung von Web-Browsing-Agenten bei realistischen, monotonen Web-Aufgaben

papers.abstract

Angetrieben von einem großen Sprachmodell (LLM) operiert ein Web-Browsing-Agent auf menschenähnliche Weise in Webbrowsern und bietet einen hochtransparenten Ansatz zur Automatisierung einer Vielzahl alltäglicher Aufgaben. Da Web-Agenten zunehmend leistungsfähiger werden und Kompetenz in allgemeinen Browsing-Aufgaben demonstrieren, stellt sich eine kritische Frage: Können sie über allgemeines Browsing hinaus robust Aufgaben bewältigen, die mühsam und komplex sind oder Tätigkeiten, die Menschen oft selbst vermeiden? In diesem Artikel stellen wir WebChoreArena vor, einen neuen, vollständig reproduzierbaren Benchmark, der 532 sorgfältig kuratierte Aufgaben umfasst, die darauf abzielen, den Anwendungsbereich von WebArena über allgemeines Browsing hinaus auf arbeitsintensivere und mühsamere Aufgaben zu erweitern. WebChoreArena integriert systematisch drei zentrale Herausforderungen: (i) Massive-Speicher-Aufgaben, die eine präzise Abrufung großer Informationsmengen in den Beobachtungen erfordern, (ii) Berechnungsaufgaben, die präzises mathematisches Denken verlangen, und (iii) Langzeitgedächtnis-Aufgaben, die ein langfristiges Gedächtnis über mehrere Webseiten hinweg erfordern. Aufbauend auf den vollständig reproduzierbaren und weit verbreiteten vier WebArena-Simulationsumgebungen gewährleistet WebChoreArena strikte Reproduzierbarkeit und ermöglicht faire, direkte Vergleiche mit dem etablierten WebArena-Benchmark, wodurch wichtige Einblicke in den Fortschritt von Agenten gewonnen werden. Unsere experimentellen Ergebnisse zeigen, dass sich mit der Weiterentwicklung von LLMs, repräsentiert durch GPT-4o, Claude 3.7 Sonnet und Gemini 2.5 Pro, signifikante Leistungsverbesserungen in WebChoreArena beobachten lassen. Diese Ergebnisse deuten darauf hin, dass WebChoreArena gut geeignet ist, den Fortschritt modernster LLMs mit größerer Klarheit zu messen. Dennoch zeigen die Ergebnisse auch, dass selbst mit Gemini 2.5 Pro im Vergleich zu WebArena noch erheblicher Verbesserungsbedarf besteht, was die erhöhten Herausforderungen von WebChoreArena unterstreicht.

English

Powered by a large language model (LLM), a web browsing agent operates web browsers in a human-like manner and offers a highly transparent path toward automating a wide range of everyday tasks. As web agents become increasingly capable and demonstrate proficiency in general browsing tasks, a critical question emerges: Can they go beyond general browsing to robustly handle tasks that are tedious and complex, or chores that humans often avoid doing themselves? In this paper, we introduce WebChoreArena, a new fully reproducible benchmark comprising 532 carefully curated tasks designed to extend the scope of WebArena beyond general browsing to more labor-intensive and tedious tasks. WebChoreArena systematically integrates three key challenges: (i) Massive Memory tasks requiring accurate retrieval of large amounts of information in the observations, (ii) Calculation tasks demanding precise mathematical reasoning, and (iii) Long-Term Memory tasks necessitating long-term memory across multiple webpages. Built on top of the fully reproducible and widely adopted four WebArena simulation environments, WebChoreArena ensures strict reproducibility and enables fair, direct comparisons with the established WebArena benchmark, offering key insights into agent progress. Our experimental results demonstrate that as LLMs evolve, represented by GPT-4o, Claude 3.7 Sonnet, and Gemini 2.5 Pro, significant improvements in performance are observed on WebChoreArena. These findings suggest that WebChoreArena is well-suited to measure the advancement of state-of-the-art LLMs with greater clarity. Nevertheless, the results also indicate that even with Gemini 2.5 Pro, there remains substantial room for improvement compared to WebArena, highlighting the increased challenges posed by WebChoreArena.

WebChoreArena: Bewertung von Web-Browsing-Agenten bei realistischen, monotonen Web-Aufgaben

WebChoreArena: Evaluating Web Browsing Agents on Realistic Tedious Web Tasks

papers.abstract

Support