Het BrowserGym-ecosysteem voor onderzoek naar webagenten
The BrowserGym Ecosystem for Web Agent Research
December 6, 2024
Auteurs: Thibault Le Sellier De Chezelles, Maxime Gasse, Alexandre Drouin, Massimo Caccia, Léo Boisvert, Megh Thakkar, Tom Marty, Rim Assouel, Sahar Omidi Shayegan, Lawrence Keunho Jang, Xing Han Lù, Ori Yoran, Dehan Kong, Frank F. Xu, Siva Reddy, Quentin Cappart, Graham Neubig, Ruslan Salakhutdinov, Nicolas Chapados, Alexandre Lacoste
cs.AI
Samenvatting
Het BrowserGym-ecosysteem speelt in op de groeiende behoefte aan efficiënte evaluatie en benchmarking van webagenten, met name die gebruikmaken van automatisering en Grote Taalmodellen (LLM's) voor webinteractietaken. Veel bestaande benchmarks kampen met fragmentatie en inconsistente evaluatiemethodologieën, waardoor betrouwbare vergelijkingen en reproduceerbare resultaten lastig te realiseren zijn. BrowserGym streeft ernaar dit op te lossen door een uniforme, op een sportschool lijkende omgeving te bieden met goed gedefinieerde observatie- en actieruimtes, waardoor gestandaardiseerde evaluatie over diverse benchmarks mogelijk wordt. In combinatie met AgentLab, een aanvullend framework dat helpt bij het creëren, testen en analyseren van agenten, biedt BrowserGym flexibiliteit voor het integreren van nieuwe benchmarks, terwijl consistente evaluatie en uitgebreid experimentbeheer worden gewaarborgd. Deze gestandaardiseerde aanpak beoogt de tijd en complexiteit van het ontwikkelen van webagenten te verminderen, ondersteunt betrouwbaardere vergelijkingen en vergemakkelijkt diepgaande analyse van agentengedrag, wat zou kunnen resulteren in meer aanpasbare, capabele agenten en uiteindelijk de innovatie in LLM-gestuurde automatisering versnelt. Als ondersteunend bewijs voeren we het eerste grootschalige, multi-benchmark webagentexperiment uit en vergelijken we de prestaties van 6 toonaangevende LLM's over alle momenteel beschikbare benchmarks in BrowserGym. Onze resultaten tonen onder andere een aanzienlijk verschil aan tussen de nieuwste modellen van OpenAI en Anthropic, waarbij Claude-3.5-Sonnet de weg leidt op bijna alle benchmarks, behalve op op visie gerelateerde taken waar GPT-4o superieur is. Ondanks deze vooruitgang benadrukken onze resultaten dat het bouwen van robuuste en efficiënte webagenten een aanzienlijke uitdaging blijft, vanwege de inherente complexiteit van webomgevingen in de echte wereld en de beperkingen van huidige modellen.
English
The BrowserGym ecosystem addresses the growing need for efficient evaluation
and benchmarking of web agents, particularly those leveraging automation and
Large Language Models (LLMs) for web interaction tasks. Many existing
benchmarks suffer from fragmentation and inconsistent evaluation methodologies,
making it challenging to achieve reliable comparisons and reproducible results.
BrowserGym aims to solve this by providing a unified, gym-like environment with
well-defined observation and action spaces, facilitating standardized
evaluation across diverse benchmarks. Combined with AgentLab, a complementary
framework that aids in agent creation, testing, and analysis, BrowserGym offers
flexibility for integrating new benchmarks while ensuring consistent evaluation
and comprehensive experiment management. This standardized approach seeks to
reduce the time and complexity of developing web agents, supporting more
reliable comparisons and facilitating in-depth analysis of agent behaviors, and
could result in more adaptable, capable agents, ultimately accelerating
innovation in LLM-driven automation. As a supporting evidence, we conduct the
first large-scale, multi-benchmark web agent experiment and compare the
performance of 6 state-of-the-art LLMs across all benchmarks currently
available in BrowserGym. Among other findings, our results highlight a large
discrepancy between OpenAI and Anthropic's latests models, with
Claude-3.5-Sonnet leading the way on almost all benchmarks, except on
vision-related tasks where GPT-4o is superior. Despite these advancements, our
results emphasize that building robust and efficient web agents remains a
significant challenge, due to the inherent complexity of real-world web
environments and the limitations of current models.