WebArena: Un Ambiente Web Realistico per la Costruzione di Agenti Autonomi
WebArena: A Realistic Web Environment for Building Autonomous Agents
July 25, 2023
Autori: Shuyan Zhou, Frank F. Xu, Hao Zhu, Xuhui Zhou, Robert Lo, Abishek Sridhar, Xianyi Cheng, Yonatan Bisk, Daniel Fried, Uri Alon, Graham Neubig
cs.AI
Abstract
Con i progressi dell'IA generativa, è emerso il potenziale entusiasmante per gli agenti autonomi di gestire compiti quotidiani tramite comandi in linguaggio naturale. Tuttavia, gli attuali agenti sono principalmente creati e testati in ambienti sintetici semplificati, limitando sostanzialmente la rappresentazione di scenari reali. In questo articolo, costruiamo un ambiente per il comando e il controllo degli agenti che è altamente realistico e riproducibile. Nello specifico, ci concentriamo su agenti che eseguono compiti su siti web e creiamo un ambiente con siti web completamente funzionali appartenenti a quattro domini comuni: e-commerce, discussioni su forum sociali, sviluppo collaborativo di software e gestione dei contenuti. Il nostro ambiente è arricchito con strumenti (ad esempio, una mappa) e basi di conoscenza esterne (ad esempio, manuali utente) per incoraggiare la risoluzione di compiti in modo simile a quello umano. Basandoci sul nostro ambiente, rilasciamo una serie di compiti di riferimento focalizzati sulla valutazione della correttezza funzionale del completamento dei compiti. I compiti nel nostro benchmark sono diversificati, a lungo termine e progettati per emulare i compiti che gli esseri umani svolgono abitualmente su internet. Progettiamo e implementiamo diversi agenti autonomi, integrando tecniche recenti come il ragionamento prima dell'azione. I risultati dimostrano che risolvere compiti complessi è impegnativo: il nostro miglior agente basato su GPT-4 raggiunge solo un tasso di successo end-to-end del 10,59%. Questi risultati evidenziano la necessità di un ulteriore sviluppo di agenti robusti, che gli attuali modelli linguistici all'avanguardia sono lontani da una prestazione perfetta in questi compiti reali e che WebArena può essere utilizzato per misurare tale progresso. Il nostro codice, dati, risorse per la riproduzione dell'ambiente e dimostrazioni video sono disponibili pubblicamente all'indirizzo https://webarena.dev/.
English
With generative AI advances, the exciting potential for autonomous agents to
manage daily tasks via natural language commands has emerged. However, cur rent
agents are primarily created and tested in simplified synthetic environments,
substantially limiting real-world scenario representation. In this paper, we
build an environment for agent command and control that is highly realistic and
reproducible. Specifically, we focus on agents that perform tasks on websites,
and we create an environment with fully functional websites from four common
domains: e-commerce, social forum discussions, collaborative software
development, and content management. Our environment is enriched with tools
(e.g., a map) and external knowledge bases (e.g., user manuals) to encourage
human-like task-solving. Building upon our environment, we release a set of
benchmark tasks focusing on evaluating the functional correctness of task
completions. The tasks in our benchmark are diverse, long-horizon, and are
designed to emulate tasks that humans routinely perform on the internet. We
design and implement several autonomous agents, integrating recent techniques
such as reasoning before acting. The results demonstrate that solving complex
tasks is challenging: our best GPT-4-based agent only achieves an end-to-end
task success rate of 10.59%. These results highlight the need for further
development of robust agents, that current state-of-the-art LMs are far from
perfect performance in these real-life tasks, and that WebArena can be used to
measure such progress. Our code, data, environment reproduction resources, and
video demonstrations are publicly available at https://webarena.dev/.