Web エージェント研究のための BrowserGym エコシステム
The BrowserGym Ecosystem for Web Agent Research
December 6, 2024
著者: Thibault Le Sellier De Chezelles, Maxime Gasse, Alexandre Drouin, Massimo Caccia, Léo Boisvert, Megh Thakkar, Tom Marty, Rim Assouel, Sahar Omidi Shayegan, Lawrence Keunho Jang, Xing Han Lù, Ori Yoran, Dehan Kong, Frank F. Xu, Siva Reddy, Quentin Cappart, Graham Neubig, Ruslan Salakhutdinov, Nicolas Chapados, Alexandre Lacoste
cs.AI
要旨
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマーキングの成長するニーズに対応しており、特に自動化と大規模言語モデル(LLMs)を活用するWebインタラクションタスクに焦点を当てています。多くの既存のベンチマークは、分断と一貫性のない評価方法論に苦しんでおり、信頼性のある比較や再現可能な結果を得ることが難しい状況です。BrowserGymは、統一された、gymのような環境を提供し、明確に定義された観測および行動空間を備え、さまざまなベンチマークにわたる標準化された評価を促進します。エージェントの作成、テスト、分析を支援する補完的なフレームワークであるAgentLabと組み合わせることで、BrowserGymは新しいベンチマークの統合の柔軟性を提供しながら、一貫した評価と包括的な実験管理を確保します。この標準化されたアプローチは、Webエージェントの開発の時間と複雑さを削減し、より信頼性のある比較をサポートし、エージェントの振る舞いの詳細な分析を促進し、最終的にLLM駆動の自動化における革新を加速させることを目指しています。支持する証拠として、初めての大規模なマルチベンチマークWebエージェント実験を実施し、現在のBrowserGymで利用可能なすべてのベンチマークにおいて、6つの最先端のLLMsのパフォーマンスを比較しています。他の発見の中で、私たちの結果は、OpenAIとAnthropicの最新モデルの間に大きな相違があり、Claude-3.5-Sonnetがほとんどのベンチマークでトップをリードしている一方、GPT-4oが優れているビジョン関連のタスクがあります。これらの進展にもかかわらず、私たちの結果は、堅牢で効率的なWebエージェントの構築は、現実世界のWeb環境の固有の複雑さと現行モデルの制約のために依然として重大な課題であることを強調しています。
English
The BrowserGym ecosystem addresses the growing need for efficient evaluation
and benchmarking of web agents, particularly those leveraging automation and
Large Language Models (LLMs) for web interaction tasks. Many existing
benchmarks suffer from fragmentation and inconsistent evaluation methodologies,
making it challenging to achieve reliable comparisons and reproducible results.
BrowserGym aims to solve this by providing a unified, gym-like environment with
well-defined observation and action spaces, facilitating standardized
evaluation across diverse benchmarks. Combined with AgentLab, a complementary
framework that aids in agent creation, testing, and analysis, BrowserGym offers
flexibility for integrating new benchmarks while ensuring consistent evaluation
and comprehensive experiment management. This standardized approach seeks to
reduce the time and complexity of developing web agents, supporting more
reliable comparisons and facilitating in-depth analysis of agent behaviors, and
could result in more adaptable, capable agents, ultimately accelerating
innovation in LLM-driven automation. As a supporting evidence, we conduct the
first large-scale, multi-benchmark web agent experiment and compare the
performance of 6 state-of-the-art LLMs across all benchmarks currently
available in BrowserGym. Among other findings, our results highlight a large
discrepancy between OpenAI and Anthropic's latests models, with
Claude-3.5-Sonnet leading the way on almost all benchmarks, except on
vision-related tasks where GPT-4o is superior. Despite these advancements, our
results emphasize that building robust and efficient web agents remains a
significant challenge, due to the inherent complexity of real-world web
environments and the limitations of current models.Summary
AI-Generated Summary