Das BrowserGym-Ökosystem für die Erforschung von Web-Agenten
The BrowserGym Ecosystem for Web Agent Research
December 6, 2024
Autoren: Thibault Le Sellier De Chezelles, Maxime Gasse, Alexandre Drouin, Massimo Caccia, Léo Boisvert, Megh Thakkar, Tom Marty, Rim Assouel, Sahar Omidi Shayegan, Lawrence Keunho Jang, Xing Han Lù, Ori Yoran, Dehan Kong, Frank F. Xu, Siva Reddy, Quentin Cappart, Graham Neubig, Ruslan Salakhutdinov, Nicolas Chapados, Alexandre Lacoste
cs.AI
Zusammenfassung
Das BrowserGym-Ökosystem adressiert den wachsenden Bedarf an effizienter Bewertung und Benchmarking von Web-Agenten, insbesondere solchen, die Automatisierung und Große Sprachmodelle (LLMs) für Web-Interaktionen nutzen. Viele bestehende Benchmarks leiden unter Fragmentierung und inkonsistenten Bewertungsmethoden, was es schwierig macht, zuverlässige Vergleiche und reproduzierbare Ergebnisse zu erzielen. BrowserGym zielt darauf ab, dies zu lösen, indem es eine vereinheitlichte, an Gym erinnernde Umgebung mit klar definierten Beobachtungs- und Aktionsräumen bereitstellt, die standardisierte Bewertungen über verschiedene Benchmarks hinweg erleichtern. In Kombination mit AgentLab, einem ergänzenden Framework, das bei der Erstellung, Prüfung und Analyse von Agenten hilft, bietet BrowserGym Flexibilität zur Integration neuer Benchmarks, während eine konsistente Bewertung und umfassendes Experimentmanagement sichergestellt werden. Dieser standardisierte Ansatz zielt darauf ab, die Zeit und Komplexität bei der Entwicklung von Web-Agenten zu reduzieren, um zuverlässigere Vergleiche zu unterstützen und eine eingehende Analyse des Agentenverhaltens zu erleichtern, was zu anpassungsfähigeren und leistungsfähigeren Agenten führen könnte und letztendlich die Innovation in der durch LLMs gesteuerten Automatisierung beschleunigen könnte. Als unterstützenden Beweis führen wir das erste groß angelegte, Multi-Benchmark-Web-Agentenexperiment durch und vergleichen die Leistung von 6 hochmodernen LLMs über alle derzeit in BrowserGym verfügbaren Benchmarks. Unter anderem zeigen unsere Ergebnisse eine große Diskrepanz zwischen den neuesten Modellen von OpenAI und Anthropic auf, wobei Claude-3.5-Sonnet auf fast allen Benchmarks führend ist, außer bei auf Vision bezogenen Aufgaben, wo GPT-4o überlegen ist. Trotz dieser Fortschritte betonen unsere Ergebnisse, dass der Aufbau robuster und effizienter Web-Agenten nach wie vor eine bedeutende Herausforderung darstellt, aufgrund der inhärenten Komplexität realer Web-Umgebungen und der Grenzen der aktuellen Modelle.
English
The BrowserGym ecosystem addresses the growing need for efficient evaluation
and benchmarking of web agents, particularly those leveraging automation and
Large Language Models (LLMs) for web interaction tasks. Many existing
benchmarks suffer from fragmentation and inconsistent evaluation methodologies,
making it challenging to achieve reliable comparisons and reproducible results.
BrowserGym aims to solve this by providing a unified, gym-like environment with
well-defined observation and action spaces, facilitating standardized
evaluation across diverse benchmarks. Combined with AgentLab, a complementary
framework that aids in agent creation, testing, and analysis, BrowserGym offers
flexibility for integrating new benchmarks while ensuring consistent evaluation
and comprehensive experiment management. This standardized approach seeks to
reduce the time and complexity of developing web agents, supporting more
reliable comparisons and facilitating in-depth analysis of agent behaviors, and
could result in more adaptable, capable agents, ultimately accelerating
innovation in LLM-driven automation. As a supporting evidence, we conduct the
first large-scale, multi-benchmark web agent experiment and compare the
performance of 6 state-of-the-art LLMs across all benchmarks currently
available in BrowserGym. Among other findings, our results highlight a large
discrepancy between OpenAI and Anthropic's latests models, with
Claude-3.5-Sonnet leading the way on almost all benchmarks, except on
vision-related tasks where GPT-4o is superior. Despite these advancements, our
results emphasize that building robust and efficient web agents remains a
significant challenge, due to the inherent complexity of real-world web
environments and the limitations of current models.Summary
AI-Generated Summary