WebArena: Реалистичная веб-среда для создания автономных агентов
WebArena: A Realistic Web Environment for Building Autonomous Agents
July 25, 2023
Авторы: Shuyan Zhou, Frank F. Xu, Hao Zhu, Xuhui Zhou, Robert Lo, Abishek Sridhar, Xianyi Cheng, Yonatan Bisk, Daniel Fried, Uri Alon, Graham Neubig
cs.AI
Аннотация
С развитием генеративного искусственного интеллекта появился захватывающий потенциал для автономных агентов, способных управлять повседневными задачами с помощью команд на естественном языке. Однако текущие агенты в основном создаются и тестируются в упрощенных синтетических средах, что существенно ограничивает представление реальных сценариев. В данной статье мы создаем среду для управления и контроля агентов, которая является высоко реалистичной и воспроизводимой. В частности, мы сосредотачиваемся на агентах, выполняющих задачи на веб-сайтах, и создаем среду с полностью функциональными веб-сайтами из четырех распространенных областей: электронная коммерция, обсуждения на социальных форумах, совместная разработка программного обеспечения и управление контентом. Наша среда обогащена инструментами (например, картой) и внешними базами знаний (например, руководствами пользователя) для поощрения человекообразного решения задач. На основе нашей среды мы выпускаем набор эталонных задач, ориентированных на оценку функциональной корректности выполнения задач. Задачи в нашем эталоне разнообразны, долгосрочны и предназначены для имитации задач, которые люди регулярно выполняют в интернете. Мы разрабатываем и реализуем несколько автономных агентов, интегрируя современные методы, такие как рассуждение перед действием. Результаты показывают, что решение сложных задач является трудным: наш лучший агент на основе GPT-4 достигает только 10,59% успешного выполнения задач от начала до конца. Эти результаты подчеркивают необходимость дальнейшего развития надежных агентов, что современные передовые языковые модели далеки от идеальной производительности в этих реальных задачах, и что WebArena может быть использована для измерения такого прогресса. Наш код, данные, ресурсы для воспроизведения среды и видеодемонстрации доступны публично по адресу https://webarena.dev/.
English
With generative AI advances, the exciting potential for autonomous agents to
manage daily tasks via natural language commands has emerged. However, cur rent
agents are primarily created and tested in simplified synthetic environments,
substantially limiting real-world scenario representation. In this paper, we
build an environment for agent command and control that is highly realistic and
reproducible. Specifically, we focus on agents that perform tasks on websites,
and we create an environment with fully functional websites from four common
domains: e-commerce, social forum discussions, collaborative software
development, and content management. Our environment is enriched with tools
(e.g., a map) and external knowledge bases (e.g., user manuals) to encourage
human-like task-solving. Building upon our environment, we release a set of
benchmark tasks focusing on evaluating the functional correctness of task
completions. The tasks in our benchmark are diverse, long-horizon, and are
designed to emulate tasks that humans routinely perform on the internet. We
design and implement several autonomous agents, integrating recent techniques
such as reasoning before acting. The results demonstrate that solving complex
tasks is challenging: our best GPT-4-based agent only achieves an end-to-end
task success rate of 10.59%. These results highlight the need for further
development of robust agents, that current state-of-the-art LMs are far from
perfect performance in these real-life tasks, and that WebArena can be used to
measure such progress. Our code, data, environment reproduction resources, and
video demonstrations are publicly available at https://webarena.dev/.