WebArena: Eine realistische Webumgebung für die Entwicklung autonomer Agenten
WebArena: A Realistic Web Environment for Building Autonomous Agents
July 25, 2023
Autoren: Shuyan Zhou, Frank F. Xu, Hao Zhu, Xuhui Zhou, Robert Lo, Abishek Sridhar, Xianyi Cheng, Yonatan Bisk, Daniel Fried, Uri Alon, Graham Neubig
cs.AI
Zusammenfassung
Mit den Fortschritten in der generativen KI hat sich das spannende Potenzial ergeben, dass autonome Agenten tägliche Aufgaben über natürliche Sprachbefehle verwalten können. Allerdings werden aktuelle Agenten hauptsächlich in vereinfachten, synthetischen Umgebungen entwickelt und getestet, was die Darstellung realer Szenarien erheblich einschränkt. In diesem Artikel erstellen wir eine Umgebung für die Befehlssteuerung von Agenten, die hochrealistisch und reproduzierbar ist. Konkret konzentrieren wir uns auf Agenten, die Aufgaben auf Websites ausführen, und schaffen eine Umgebung mit voll funktionsfähigen Websites aus vier gängigen Bereichen: E-Commerce, soziale Forendiskussionen, kollaborative Softwareentwicklung und Content-Management. Unsere Umgebung wird mit Werkzeugen (z. B. einer Karte) und externen Wissensdatenbanken (z. B. Benutzerhandbüchern) angereichert, um menschenähnliches Aufgabenlösen zu fördern. Aufbauend auf unserer Umgebung veröffentlichen wir eine Reihe von Benchmark-Aufgaben, die sich auf die Bewertung der funktionalen Korrektheit der Aufgabenabschlüsse konzentrieren. Die Aufgaben in unserem Benchmark sind vielfältig, langfristig angelegt und sollen Aufgaben nachahmen, die Menschen routinemäßig im Internet ausführen. Wir entwerfen und implementieren mehrere autonome Agenten, die aktuelle Techniken wie das Denken vor dem Handeln integrieren. Die Ergebnisse zeigen, dass die Lösung komplexer Aufgaben eine Herausforderung darstellt: Unser bester auf GPT-4 basierender Agent erreicht nur eine End-to-End-Aufgabenerfolgsrate von 10,59 %. Diese Ergebnisse unterstreichen die Notwendigkeit der Weiterentwicklung robuster Agenten, dass aktuelle state-of-the-art Sprachmodelle bei diesen realen Aufgaben noch weit von einer perfekten Leistung entfernt sind und dass WebArena genutzt werden kann, um solche Fortschritte zu messen. Unser Code, Daten, Ressourcen zur Umgebungsreproduktion und Videodemonstrationen sind öffentlich unter https://webarena.dev/ verfügbar.
English
With generative AI advances, the exciting potential for autonomous agents to
manage daily tasks via natural language commands has emerged. However, cur rent
agents are primarily created and tested in simplified synthetic environments,
substantially limiting real-world scenario representation. In this paper, we
build an environment for agent command and control that is highly realistic and
reproducible. Specifically, we focus on agents that perform tasks on websites,
and we create an environment with fully functional websites from four common
domains: e-commerce, social forum discussions, collaborative software
development, and content management. Our environment is enriched with tools
(e.g., a map) and external knowledge bases (e.g., user manuals) to encourage
human-like task-solving. Building upon our environment, we release a set of
benchmark tasks focusing on evaluating the functional correctness of task
completions. The tasks in our benchmark are diverse, long-horizon, and are
designed to emulate tasks that humans routinely perform on the internet. We
design and implement several autonomous agents, integrating recent techniques
such as reasoning before acting. The results demonstrate that solving complex
tasks is challenging: our best GPT-4-based agent only achieves an end-to-end
task success rate of 10.59%. These results highlight the need for further
development of robust agents, that current state-of-the-art LMs are far from
perfect performance in these real-life tasks, and that WebArena can be used to
measure such progress. Our code, data, environment reproduction resources, and
video demonstrations are publicly available at https://webarena.dev/.