WebArena: Um Ambiente Web Realista para a Construção de Agentes Autônomos

Resumo

Com os avanços da IA generativa, surgiu o potencial empolgante de agentes autônomos gerenciarem tarefas diárias por meio de comandos em linguagem natural. No entanto, os agentes atuais são principalmente criados e testados em ambientes sintéticos simplificados, limitando substancialmente a representação de cenários do mundo real. Neste artigo, construímos um ambiente para comando e controle de agentes que é altamente realista e reproduzível. Especificamente, focamos em agentes que executam tarefas em sites, e criamos um ambiente com sites totalmente funcionais de quatro domínios comuns: comércio eletrônico, discussões em fóruns sociais, desenvolvimento colaborativo de software e gerenciamento de conteúdo. Nosso ambiente é enriquecido com ferramentas (por exemplo, um mapa) e bases de conhecimento externas (por exemplo, manuais do usuário) para incentivar a resolução de tarefas de maneira semelhante à humana. Com base em nosso ambiente, lançamos um conjunto de tarefas de referência focadas em avaliar a correção funcional da conclusão das tarefas. As tarefas em nosso benchmark são diversas, de longo prazo e projetadas para emular tarefas que os humanos realizam rotineiramente na internet. Projetamos e implementamos vários agentes autônomos, integrando técnicas recentes, como raciocinar antes de agir. Os resultados demonstram que resolver tarefas complexas é desafiador: nosso melhor agente baseado em GPT-4 alcança apenas uma taxa de sucesso de 10,59% na conclusão de tarefas de ponta a ponta. Esses resultados destacam a necessidade de um maior desenvolvimento de agentes robustos, que os modelos de linguagem (LMs) de última geração estão longe de um desempenho perfeito nessas tarefas da vida real, e que o WebArena pode ser usado para medir esse progresso. Nosso código, dados, recursos de reprodução do ambiente e demonstrações em vídeo estão publicamente disponíveis em https://webarena.dev/.

English

With generative AI advances, the exciting potential for autonomous agents to manage daily tasks via natural language commands has emerged. However, cur rent agents are primarily created and tested in simplified synthetic environments, substantially limiting real-world scenario representation. In this paper, we build an environment for agent command and control that is highly realistic and reproducible. Specifically, we focus on agents that perform tasks on websites, and we create an environment with fully functional websites from four common domains: e-commerce, social forum discussions, collaborative software development, and content management. Our environment is enriched with tools (e.g., a map) and external knowledge bases (e.g., user manuals) to encourage human-like task-solving. Building upon our environment, we release a set of benchmark tasks focusing on evaluating the functional correctness of task completions. The tasks in our benchmark are diverse, long-horizon, and are designed to emulate tasks that humans routinely perform on the internet. We design and implement several autonomous agents, integrating recent techniques such as reasoning before acting. The results demonstrate that solving complex tasks is challenging: our best GPT-4-based agent only achieves an end-to-end task success rate of 10.59%. These results highlight the need for further development of robust agents, that current state-of-the-art LMs are far from perfect performance in these real-life tasks, and that WebArena can be used to measure such progress. Our code, data, environment reproduction resources, and video demonstrations are publicly available at https://webarena.dev/.

WebArena: Um Ambiente Web Realista para a Construção de Agentes Autônomos

WebArena: A Realistic Web Environment for Building Autonomous Agents

Resumo

Support