Het BrowserGym-ecosysteem voor onderzoek naar webagenten

Samenvatting

Het BrowserGym-ecosysteem speelt in op de groeiende behoefte aan efficiënte evaluatie en benchmarking van webagenten, met name die gebruikmaken van automatisering en Grote Taalmodellen (LLM's) voor webinteractietaken. Veel bestaande benchmarks kampen met fragmentatie en inconsistente evaluatiemethodologieën, waardoor betrouwbare vergelijkingen en reproduceerbare resultaten lastig te realiseren zijn. BrowserGym streeft ernaar dit op te lossen door een uniforme, op een sportschool lijkende omgeving te bieden met goed gedefinieerde observatie- en actieruimtes, waardoor gestandaardiseerde evaluatie over diverse benchmarks mogelijk wordt. In combinatie met AgentLab, een aanvullend framework dat helpt bij het creëren, testen en analyseren van agenten, biedt BrowserGym flexibiliteit voor het integreren van nieuwe benchmarks, terwijl consistente evaluatie en uitgebreid experimentbeheer worden gewaarborgd. Deze gestandaardiseerde aanpak beoogt de tijd en complexiteit van het ontwikkelen van webagenten te verminderen, ondersteunt betrouwbaardere vergelijkingen en vergemakkelijkt diepgaande analyse van agentengedrag, wat zou kunnen resulteren in meer aanpasbare, capabele agenten en uiteindelijk de innovatie in LLM-gestuurde automatisering versnelt. Als ondersteunend bewijs voeren we het eerste grootschalige, multi-benchmark webagentexperiment uit en vergelijken we de prestaties van 6 toonaangevende LLM's over alle momenteel beschikbare benchmarks in BrowserGym. Onze resultaten tonen onder andere een aanzienlijk verschil aan tussen de nieuwste modellen van OpenAI en Anthropic, waarbij Claude-3.5-Sonnet de weg leidt op bijna alle benchmarks, behalve op op visie gerelateerde taken waar GPT-4o superieur is. Ondanks deze vooruitgang benadrukken onze resultaten dat het bouwen van robuuste en efficiënte webagenten een aanzienlijke uitdaging blijft, vanwege de inherente complexiteit van webomgevingen in de echte wereld en de beperkingen van huidige modellen.

English

The BrowserGym ecosystem addresses the growing need for efficient evaluation and benchmarking of web agents, particularly those leveraging automation and Large Language Models (LLMs) for web interaction tasks. Many existing benchmarks suffer from fragmentation and inconsistent evaluation methodologies, making it challenging to achieve reliable comparisons and reproducible results. BrowserGym aims to solve this by providing a unified, gym-like environment with well-defined observation and action spaces, facilitating standardized evaluation across diverse benchmarks. Combined with AgentLab, a complementary framework that aids in agent creation, testing, and analysis, BrowserGym offers flexibility for integrating new benchmarks while ensuring consistent evaluation and comprehensive experiment management. This standardized approach seeks to reduce the time and complexity of developing web agents, supporting more reliable comparisons and facilitating in-depth analysis of agent behaviors, and could result in more adaptable, capable agents, ultimately accelerating innovation in LLM-driven automation. As a supporting evidence, we conduct the first large-scale, multi-benchmark web agent experiment and compare the performance of 6 state-of-the-art LLMs across all benchmarks currently available in BrowserGym. Among other findings, our results highlight a large discrepancy between OpenAI and Anthropic's latests models, with Claude-3.5-Sonnet leading the way on almost all benchmarks, except on vision-related tasks where GPT-4o is superior. Despite these advancements, our results emphasize that building robust and efficient web agents remains a significant challenge, due to the inherent complexity of real-world web environments and the limitations of current models.

Het BrowserGym-ecosysteem voor onderzoek naar webagenten

The BrowserGym Ecosystem for Web Agent Research

Samenvatting

Support