Экосистема BrowserGym для исследований веб-агентов
The BrowserGym Ecosystem for Web Agent Research
December 6, 2024
Авторы: Thibault Le Sellier De Chezelles, Maxime Gasse, Alexandre Drouin, Massimo Caccia, Léo Boisvert, Megh Thakkar, Tom Marty, Rim Assouel, Sahar Omidi Shayegan, Lawrence Keunho Jang, Xing Han Lù, Ori Yoran, Dehan Kong, Frank F. Xu, Siva Reddy, Quentin Cappart, Graham Neubig, Ruslan Salakhutdinov, Nicolas Chapados, Alexandre Lacoste
cs.AI
Аннотация
Экосистема BrowserGym решает растущую потребность в эффективной оценке и бенчмаркинге веб-агентов, особенно тех, которые используют автоматизацию и большие языковые модели (LLM) для задач взаимодействия с вебом. Многие существующие бенчмарки страдают от фрагментации и несогласованных методологий оценки, что затрудняет достижение надежных сравнений и воспроизводимых результатов. BrowserGym стремится решить эту проблему, предоставляя унифицированную среду, подобную тренажеру, с четко определенными пространствами наблюдения и действий, облегчая стандартизированную оценку на различных бенчмарках. В сочетании с AgentLab, дополнительным фреймворком, который помогает в создании, тестировании и анализе агентов, BrowserGym предлагает гибкость для интеграции новых бенчмарков, обеспечивая при этом последовательную оценку и полное управление экспериментами. Этот стандартизированный подход направлен на сокращение времени и сложности разработки веб-агентов, поддерживая более надежные сравнения и облегчая глубокий анализ поведения агентов, что может привести к более адаптивным и способным агентам, в конечном итоге ускоряя инновации в автоматизации на основе LLM. В качестве подтверждения этого, мы проводим первый крупномасштабный мульти-бенчмарксный эксперимент с веб-агентами и сравниваем производительность 6 передовых LLM на всех текущих бенчмарках, доступных в BrowserGym. Среди других результатов, наши исследования выявляют значительное расхождение между последними моделями OpenAI и Anthropic, при этом Claude-3.5-Sonnet лидирует почти на всех бенчмарках, за исключением задач, связанных с зрением, где GPT-4o превосходит. Несмотря на эти достижения, наши результаты подчеркивают, что создание надежных и эффективных веб-агентов остается значительной задачей из-за врожденной сложности реальных веб-сред и ограничений текущих моделей.
English
The BrowserGym ecosystem addresses the growing need for efficient evaluation
and benchmarking of web agents, particularly those leveraging automation and
Large Language Models (LLMs) for web interaction tasks. Many existing
benchmarks suffer from fragmentation and inconsistent evaluation methodologies,
making it challenging to achieve reliable comparisons and reproducible results.
BrowserGym aims to solve this by providing a unified, gym-like environment with
well-defined observation and action spaces, facilitating standardized
evaluation across diverse benchmarks. Combined with AgentLab, a complementary
framework that aids in agent creation, testing, and analysis, BrowserGym offers
flexibility for integrating new benchmarks while ensuring consistent evaluation
and comprehensive experiment management. This standardized approach seeks to
reduce the time and complexity of developing web agents, supporting more
reliable comparisons and facilitating in-depth analysis of agent behaviors, and
could result in more adaptable, capable agents, ultimately accelerating
innovation in LLM-driven automation. As a supporting evidence, we conduct the
first large-scale, multi-benchmark web agent experiment and compare the
performance of 6 state-of-the-art LLMs across all benchmarks currently
available in BrowserGym. Among other findings, our results highlight a large
discrepancy between OpenAI and Anthropic's latests models, with
Claude-3.5-Sonnet leading the way on almost all benchmarks, except on
vision-related tasks where GPT-4o is superior. Despite these advancements, our
results emphasize that building robust and efficient web agents remains a
significant challenge, due to the inherent complexity of real-world web
environments and the limitations of current models.Summary
AI-Generated Summary