WebArena: Um Ambiente Web Realista para a Construção de Agentes Autônomos
WebArena: A Realistic Web Environment for Building Autonomous Agents
July 25, 2023
Autores: Shuyan Zhou, Frank F. Xu, Hao Zhu, Xuhui Zhou, Robert Lo, Abishek Sridhar, Xianyi Cheng, Yonatan Bisk, Daniel Fried, Uri Alon, Graham Neubig
cs.AI
Resumo
Com os avanços da IA generativa, surgiu o potencial empolgante de agentes autônomos gerenciarem tarefas diárias por meio de comandos em linguagem natural. No entanto, os agentes atuais são principalmente criados e testados em ambientes sintéticos simplificados, limitando substancialmente a representação de cenários do mundo real. Neste artigo, construímos um ambiente para comando e controle de agentes que é altamente realista e reproduzível. Especificamente, focamos em agentes que executam tarefas em sites, e criamos um ambiente com sites totalmente funcionais de quatro domínios comuns: comércio eletrônico, discussões em fóruns sociais, desenvolvimento colaborativo de software e gerenciamento de conteúdo. Nosso ambiente é enriquecido com ferramentas (por exemplo, um mapa) e bases de conhecimento externas (por exemplo, manuais do usuário) para incentivar a resolução de tarefas de maneira semelhante à humana. Com base em nosso ambiente, lançamos um conjunto de tarefas de referência focadas em avaliar a correção funcional da conclusão das tarefas. As tarefas em nosso benchmark são diversas, de longo prazo e projetadas para emular tarefas que os humanos realizam rotineiramente na internet. Projetamos e implementamos vários agentes autônomos, integrando técnicas recentes, como raciocinar antes de agir. Os resultados demonstram que resolver tarefas complexas é desafiador: nosso melhor agente baseado em GPT-4 alcança apenas uma taxa de sucesso de 10,59% na conclusão de tarefas de ponta a ponta. Esses resultados destacam a necessidade de um maior desenvolvimento de agentes robustos, que os modelos de linguagem (LMs) de última geração estão longe de um desempenho perfeito nessas tarefas da vida real, e que o WebArena pode ser usado para medir esse progresso. Nosso código, dados, recursos de reprodução do ambiente e demonstrações em vídeo estão publicamente disponíveis em https://webarena.dev/.
English
With generative AI advances, the exciting potential for autonomous agents to
manage daily tasks via natural language commands has emerged. However, cur rent
agents are primarily created and tested in simplified synthetic environments,
substantially limiting real-world scenario representation. In this paper, we
build an environment for agent command and control that is highly realistic and
reproducible. Specifically, we focus on agents that perform tasks on websites,
and we create an environment with fully functional websites from four common
domains: e-commerce, social forum discussions, collaborative software
development, and content management. Our environment is enriched with tools
(e.g., a map) and external knowledge bases (e.g., user manuals) to encourage
human-like task-solving. Building upon our environment, we release a set of
benchmark tasks focusing on evaluating the functional correctness of task
completions. The tasks in our benchmark are diverse, long-horizon, and are
designed to emulate tasks that humans routinely perform on the internet. We
design and implement several autonomous agents, integrating recent techniques
such as reasoning before acting. The results demonstrate that solving complex
tasks is challenging: our best GPT-4-based agent only achieves an end-to-end
task success rate of 10.59%. These results highlight the need for further
development of robust agents, that current state-of-the-art LMs are far from
perfect performance in these real-life tasks, and that WebArena can be used to
measure such progress. Our code, data, environment reproduction resources, and
video demonstrations are publicly available at https://webarena.dev/.