WebArena : Un Environnement Web Réaliste pour la Construction d'Agents Autonomes
WebArena: A Realistic Web Environment for Building Autonomous Agents
July 25, 2023
Auteurs: Shuyan Zhou, Frank F. Xu, Hao Zhu, Xuhui Zhou, Robert Lo, Abishek Sridhar, Xianyi Cheng, Yonatan Bisk, Daniel Fried, Uri Alon, Graham Neubig
cs.AI
Résumé
Avec les avancées de l'IA générative, le potentiel excitant pour des agents autonomes de gérer des tâches quotidiennes via des commandes en langage naturel a émergé. Cependant, les agents actuels sont principalement créés et testés dans des environnements synthétiques simplifiés, limitant considérablement la représentation des scénarios réels. Dans cet article, nous construisons un environnement pour le commandement et le contrôle d'agents qui est hautement réaliste et reproductible. Plus précisément, nous nous concentrons sur des agents qui exécutent des tâches sur des sites web, et nous créons un environnement avec des sites web entièrement fonctionnels dans quatre domaines courants : le commerce électronique, les discussions sur les forums sociaux, le développement collaboratif de logiciels et la gestion de contenu. Notre environnement est enrichi d'outils (par exemple, une carte) et de bases de connaissances externes (par exemple, des manuels utilisateur) pour encourager une résolution de tâches semblable à celle des humains. Sur la base de notre environnement, nous publions un ensemble de tâches de référence axées sur l'évaluation de l'exactitude fonctionnelle des accomplissements de tâches. Les tâches de notre référence sont variées, à long terme, et conçues pour imiter les tâches que les humains effectuent couramment sur Internet. Nous concevons et implémentons plusieurs agents autonomes, intégrant des techniques récentes telles que le raisonnement avant l'action. Les résultats démontrent que la résolution de tâches complexes est difficile : notre meilleur agent basé sur GPT-4 n'atteint qu'un taux de réussite de tâche de bout en bout de 10,59 %. Ces résultats soulignent la nécessité de développer davantage des agents robustes, que les modèles de langage actuels les plus avancés sont loin d'une performance parfaite dans ces tâches de la vie réelle, et que WebArena peut être utilisé pour mesurer un tel progrès. Notre code, données, ressources de reproduction de l'environnement et démonstrations vidéo sont disponibles publiquement à l'adresse https://webarena.dev/.
English
With generative AI advances, the exciting potential for autonomous agents to
manage daily tasks via natural language commands has emerged. However, cur rent
agents are primarily created and tested in simplified synthetic environments,
substantially limiting real-world scenario representation. In this paper, we
build an environment for agent command and control that is highly realistic and
reproducible. Specifically, we focus on agents that perform tasks on websites,
and we create an environment with fully functional websites from four common
domains: e-commerce, social forum discussions, collaborative software
development, and content management. Our environment is enriched with tools
(e.g., a map) and external knowledge bases (e.g., user manuals) to encourage
human-like task-solving. Building upon our environment, we release a set of
benchmark tasks focusing on evaluating the functional correctness of task
completions. The tasks in our benchmark are diverse, long-horizon, and are
designed to emulate tasks that humans routinely perform on the internet. We
design and implement several autonomous agents, integrating recent techniques
such as reasoning before acting. The results demonstrate that solving complex
tasks is challenging: our best GPT-4-based agent only achieves an end-to-end
task success rate of 10.59%. These results highlight the need for further
development of robust agents, that current state-of-the-art LMs are far from
perfect performance in these real-life tasks, and that WebArena can be used to
measure such progress. Our code, data, environment reproduction resources, and
video demonstrations are publicly available at https://webarena.dev/.