WebChoreArena: Evaluatie van webbrowsingagentschappen op realistische, vervelende webtaken

Samenvatting

Aangedreven door een groot taalmodel (LLM) opereert een webnavigatieagent op een mensachtige manier in webbrowsers en biedt een zeer transparante aanpak voor het automatiseren van een breed scala aan alledaagse taken. Naarmate webagenten steeds capabeler worden en vaardigheid tonen in algemene navigatietaken, rijst een kritische vraag: Kunnen ze verder gaan dan algemene navigatie en robuust omgaan met taken die vervelend en complex zijn, of klusjes die mensen vaak zelf vermijden? In dit artikel introduceren we WebChoreArena, een nieuwe volledig reproduceerbare benchmark bestaande uit 532 zorgvuldig samengestelde taken, ontworpen om het bereik van WebArena uit te breiden van algemene navigatie naar meer arbeidsintensieve en vervelende taken. WebChoreArena integreert systematisch drie belangrijke uitdagingen: (i) Massive Memory-taken die nauwkeurige ophaling van grote hoeveelheden informatie in de observaties vereisen, (ii) Berekeningstaken die precies wiskundig redeneren vereisen, en (iii) Langetermijngeheugen-taken die langetermijngeheugen over meerdere webpagina's noodzakelijk maken. Gebouwd bovenop de volledig reproduceerbare en breed geaccepteerde vier WebArena-simulatieomgevingen, zorgt WebChoreArena voor strikte reproduceerbaarheid en maakt het eerlijke, directe vergelijkingen met de gevestigde WebArena-benchmark mogelijk, wat belangrijke inzichten biedt in de voortgang van agenten. Onze experimentele resultaten tonen aan dat naarmate LLMs evolueren, vertegenwoordigd door GPT-4o, Claude 3.7 Sonnet en Gemini 2.5 Pro, significante verbeteringen in prestaties worden waargenomen op WebChoreArena. Deze bevindingen suggereren dat WebChoreArena goed geschikt is om de vooruitgang van state-of-the-art LLMs met grotere duidelijkheid te meten. Desalniettemin geven de resultaten ook aan dat er zelfs met Gemini 2.5 Pro nog aanzienlijke ruimte voor verbetering is in vergelijking met WebArena, wat de toegenomen uitdagingen van WebChoreArena benadrukt.

English

Powered by a large language model (LLM), a web browsing agent operates web browsers in a human-like manner and offers a highly transparent path toward automating a wide range of everyday tasks. As web agents become increasingly capable and demonstrate proficiency in general browsing tasks, a critical question emerges: Can they go beyond general browsing to robustly handle tasks that are tedious and complex, or chores that humans often avoid doing themselves? In this paper, we introduce WebChoreArena, a new fully reproducible benchmark comprising 532 carefully curated tasks designed to extend the scope of WebArena beyond general browsing to more labor-intensive and tedious tasks. WebChoreArena systematically integrates three key challenges: (i) Massive Memory tasks requiring accurate retrieval of large amounts of information in the observations, (ii) Calculation tasks demanding precise mathematical reasoning, and (iii) Long-Term Memory tasks necessitating long-term memory across multiple webpages. Built on top of the fully reproducible and widely adopted four WebArena simulation environments, WebChoreArena ensures strict reproducibility and enables fair, direct comparisons with the established WebArena benchmark, offering key insights into agent progress. Our experimental results demonstrate that as LLMs evolve, represented by GPT-4o, Claude 3.7 Sonnet, and Gemini 2.5 Pro, significant improvements in performance are observed on WebChoreArena. These findings suggest that WebChoreArena is well-suited to measure the advancement of state-of-the-art LLMs with greater clarity. Nevertheless, the results also indicate that even with Gemini 2.5 Pro, there remains substantial room for improvement compared to WebArena, highlighting the increased challenges posed by WebChoreArena.

WebChoreArena: Evaluatie van webbrowsingagentschappen op realistische, vervelende webtaken

WebChoreArena: Evaluating Web Browsing Agents on Realistic Tedious Web Tasks

Samenvatting

Support