WebArena: Un Ambiente Web Realistico per la Costruzione di Agenti Autonomi

Abstract

Con i progressi dell'IA generativa, è emerso il potenziale entusiasmante per gli agenti autonomi di gestire compiti quotidiani tramite comandi in linguaggio naturale. Tuttavia, gli attuali agenti sono principalmente creati e testati in ambienti sintetici semplificati, limitando sostanzialmente la rappresentazione di scenari reali. In questo articolo, costruiamo un ambiente per il comando e il controllo degli agenti che è altamente realistico e riproducibile. Nello specifico, ci concentriamo su agenti che eseguono compiti su siti web e creiamo un ambiente con siti web completamente funzionali appartenenti a quattro domini comuni: e-commerce, discussioni su forum sociali, sviluppo collaborativo di software e gestione dei contenuti. Il nostro ambiente è arricchito con strumenti (ad esempio, una mappa) e basi di conoscenza esterne (ad esempio, manuali utente) per incoraggiare la risoluzione di compiti in modo simile a quello umano. Basandoci sul nostro ambiente, rilasciamo una serie di compiti di riferimento focalizzati sulla valutazione della correttezza funzionale del completamento dei compiti. I compiti nel nostro benchmark sono diversificati, a lungo termine e progettati per emulare i compiti che gli esseri umani svolgono abitualmente su internet. Progettiamo e implementiamo diversi agenti autonomi, integrando tecniche recenti come il ragionamento prima dell'azione. I risultati dimostrano che risolvere compiti complessi è impegnativo: il nostro miglior agente basato su GPT-4 raggiunge solo un tasso di successo end-to-end del 10,59%. Questi risultati evidenziano la necessità di un ulteriore sviluppo di agenti robusti, che gli attuali modelli linguistici all'avanguardia sono lontani da una prestazione perfetta in questi compiti reali e che WebArena può essere utilizzato per misurare tale progresso. Il nostro codice, dati, risorse per la riproduzione dell'ambiente e dimostrazioni video sono disponibili pubblicamente all'indirizzo https://webarena.dev/.

English

With generative AI advances, the exciting potential for autonomous agents to manage daily tasks via natural language commands has emerged. However, cur rent agents are primarily created and tested in simplified synthetic environments, substantially limiting real-world scenario representation. In this paper, we build an environment for agent command and control that is highly realistic and reproducible. Specifically, we focus on agents that perform tasks on websites, and we create an environment with fully functional websites from four common domains: e-commerce, social forum discussions, collaborative software development, and content management. Our environment is enriched with tools (e.g., a map) and external knowledge bases (e.g., user manuals) to encourage human-like task-solving. Building upon our environment, we release a set of benchmark tasks focusing on evaluating the functional correctness of task completions. The tasks in our benchmark are diverse, long-horizon, and are designed to emulate tasks that humans routinely perform on the internet. We design and implement several autonomous agents, integrating recent techniques such as reasoning before acting. The results demonstrate that solving complex tasks is challenging: our best GPT-4-based agent only achieves an end-to-end task success rate of 10.59%. These results highlight the need for further development of robust agents, that current state-of-the-art LMs are far from perfect performance in these real-life tasks, and that WebArena can be used to measure such progress. Our code, data, environment reproduction resources, and video demonstrations are publicly available at https://webarena.dev/.

WebArena: Un Ambiente Web Realistico per la Costruzione di Agenti Autonomi

WebArena: A Realistic Web Environment for Building Autonomous Agents

Abstract

Support