Das BrowserGym-Ökosystem für die Erforschung von Web-Agenten

papers.abstract

Das BrowserGym-Ökosystem adressiert den wachsenden Bedarf an effizienter Bewertung und Benchmarking von Web-Agenten, insbesondere solchen, die Automatisierung und Große Sprachmodelle (LLMs) für Web-Interaktionen nutzen. Viele bestehende Benchmarks leiden unter Fragmentierung und inkonsistenten Bewertungsmethoden, was es schwierig macht, zuverlässige Vergleiche und reproduzierbare Ergebnisse zu erzielen. BrowserGym zielt darauf ab, dies zu lösen, indem es eine vereinheitlichte, an Gym erinnernde Umgebung mit klar definierten Beobachtungs- und Aktionsräumen bereitstellt, die standardisierte Bewertungen über verschiedene Benchmarks hinweg erleichtern. In Kombination mit AgentLab, einem ergänzenden Framework, das bei der Erstellung, Prüfung und Analyse von Agenten hilft, bietet BrowserGym Flexibilität zur Integration neuer Benchmarks, während eine konsistente Bewertung und umfassendes Experimentmanagement sichergestellt werden. Dieser standardisierte Ansatz zielt darauf ab, die Zeit und Komplexität bei der Entwicklung von Web-Agenten zu reduzieren, um zuverlässigere Vergleiche zu unterstützen und eine eingehende Analyse des Agentenverhaltens zu erleichtern, was zu anpassungsfähigeren und leistungsfähigeren Agenten führen könnte und letztendlich die Innovation in der durch LLMs gesteuerten Automatisierung beschleunigen könnte. Als unterstützenden Beweis führen wir das erste groß angelegte, Multi-Benchmark-Web-Agentenexperiment durch und vergleichen die Leistung von 6 hochmodernen LLMs über alle derzeit in BrowserGym verfügbaren Benchmarks. Unter anderem zeigen unsere Ergebnisse eine große Diskrepanz zwischen den neuesten Modellen von OpenAI und Anthropic auf, wobei Claude-3.5-Sonnet auf fast allen Benchmarks führend ist, außer bei auf Vision bezogenen Aufgaben, wo GPT-4o überlegen ist. Trotz dieser Fortschritte betonen unsere Ergebnisse, dass der Aufbau robuster und effizienter Web-Agenten nach wie vor eine bedeutende Herausforderung darstellt, aufgrund der inhärenten Komplexität realer Web-Umgebungen und der Grenzen der aktuellen Modelle.

English

The BrowserGym ecosystem addresses the growing need for efficient evaluation and benchmarking of web agents, particularly those leveraging automation and Large Language Models (LLMs) for web interaction tasks. Many existing benchmarks suffer from fragmentation and inconsistent evaluation methodologies, making it challenging to achieve reliable comparisons and reproducible results. BrowserGym aims to solve this by providing a unified, gym-like environment with well-defined observation and action spaces, facilitating standardized evaluation across diverse benchmarks. Combined with AgentLab, a complementary framework that aids in agent creation, testing, and analysis, BrowserGym offers flexibility for integrating new benchmarks while ensuring consistent evaluation and comprehensive experiment management. This standardized approach seeks to reduce the time and complexity of developing web agents, supporting more reliable comparisons and facilitating in-depth analysis of agent behaviors, and could result in more adaptable, capable agents, ultimately accelerating innovation in LLM-driven automation. As a supporting evidence, we conduct the first large-scale, multi-benchmark web agent experiment and compare the performance of 6 state-of-the-art LLMs across all benchmarks currently available in BrowserGym. Among other findings, our results highlight a large discrepancy between OpenAI and Anthropic's latests models, with Claude-3.5-Sonnet leading the way on almost all benchmarks, except on vision-related tasks where GPT-4o is superior. Despite these advancements, our results emphasize that building robust and efficient web agents remains a significant challenge, due to the inherent complexity of real-world web environments and the limitations of current models.

Das BrowserGym-Ökosystem für die Erforschung von Web-Agenten

The BrowserGym Ecosystem for Web Agent Research

papers.abstract

Support