AppWorld: Um Mundo Controlável de Aplicativos e Pessoas para Avaliação de Agentes de Codificação Interativos

Resumo

Agentes autônomos que lidam com tarefas digitais do dia a dia (por exemplo, fazer compras de supermercado para uma casa), não só precisam operar vários aplicativos (por exemplo, notas, mensagens, aplicativo de compras) via APIs, mas também gerar código complexo com fluxo de controle em uma abordagem iterativa com base em sua interação com o ambiente. No entanto, os benchmarks existentes para uso de ferramentas são inadequados, pois cobrem apenas tarefas que exigem uma sequência simples de chamadas de API. Para remediar essa lacuna, construímos o AppWorld Engine, um ambiente de execução de alta qualidade (60 mil linhas de código) de 9 aplicativos do dia a dia operáveis via 457 APIs e preenchidos com atividades digitais realistas simulando a vida de ~100 usuários fictícios. Em seguida, criamos o AppWorld Benchmark (40 mil linhas de código), um conjunto de 750 tarefas autônomas naturais, diversas e desafiadoras que exigem geração de código rica e interativa. Ele suporta uma avaliação programática robusta com testes unitários baseados em estado, permitindo diferentes maneiras de concluir uma tarefa, ao mesmo tempo em que verifica alterações inesperadas, ou seja, danos colaterais. O LLM de última geração, GPT-4o, resolve apenas ~49% de nossas tarefas 'normais' e ~30% das tarefas 'desafiadoras', enquanto outros modelos resolvem pelo menos 16% a menos. Isso destaca a dificuldade do benchmark e o potencial do AppWorld para impulsionar os limites dos agentes de codificação interativa. O site do projeto está disponível em https://appworld.dev/.

English

Autonomous agents that address day-to-day digital tasks (e.g., ordering groceries for a household), must not only operate multiple apps (e.g., notes, messaging, shopping app) via APIs, but also generate rich code with complex control flow in an iterative manner based on their interaction with the environment. However, existing benchmarks for tool use are inadequate, as they only cover tasks that require a simple sequence of API calls. To remedy this gap, we built AppWorld Engine, a high-quality execution environment (60K lines of code) of 9 day-to-day apps operable via 457 APIs and populated with realistic digital activities simulating the lives of ~100 fictitious users. We then created AppWorld Benchmark (40K lines of code), a suite of 750 natural, diverse, and challenging autonomous agent tasks requiring rich and interactive code generation. It supports robust programmatic evaluation with state-based unit tests, allowing for different ways of completing a task while also checking for unexpected changes, i.e., collateral damage. The state-of-the-art LLM, GPT-4o, solves only ~49% of our 'normal' tasks and ~30% of 'challenge' tasks, while other models solve at least 16% fewer. This highlights the benchmark's difficulty and AppWorld's potential to push the frontiers of interactive coding agents. The project website is available at https://appworld.dev/.

AppWorld: Um Mundo Controlável de Aplicativos e Pessoas para Avaliação de Agentes de Codificação Interativos

AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents

Resumo

Summary

Support

Support