AppWorld: Un Mondo Controllabile di App e Persone per il Benchmarking di Agenti di Codifica Interattivi

Abstract

Gli agenti autonomi che affrontano compiti digitali quotidiani (ad esempio, ordinare la spesa per una famiglia) non solo devono operare su più app (ad esempio, note, messaggistica, app di shopping) tramite API, ma anche generare codice complesso con un flusso di controllo articolato in modo iterativo, basandosi sulla loro interazione con l'ambiente. Tuttavia, i benchmark esistenti per l'uso di strumenti sono inadeguati, poiché coprono solo compiti che richiedono una semplice sequenza di chiamate API. Per colmare questa lacuna, abbiamo creato AppWorld Engine, un ambiente di esecuzione di alta qualità (60K righe di codice) composto da 9 app quotidiane operabili tramite 457 API e popolato con attività digitali realistiche che simulano la vita di circa 100 utenti fittizi. Abbiamo quindi sviluppato AppWorld Benchmark (40K righe di codice), una suite di 750 compiti naturali, diversificati e impegnativi per agenti autonomi, che richiedono la generazione di codice ricco e interattivo. Supporta una valutazione programmatica robusta con test unitari basati sullo stato, consentendo diversi modi di completare un compito e verificando la presenza di modifiche impreviste, ovvero danni collaterali. Lo stato dell'arte degli LLM, GPT-4o, risolve solo circa il 49% dei nostri compiti "normali" e circa il 30% dei compiti "sfida", mentre altri modelli risolvono almeno il 16% in meno. Ciò evidenzia la difficoltà del benchmark e il potenziale di AppWorld di spingere le frontiere degli agenti di codifica interattiva. Il sito web del progetto è disponibile all'indirizzo https://appworld.dev/.

English

Autonomous agents that address day-to-day digital tasks (e.g., ordering groceries for a household), must not only operate multiple apps (e.g., notes, messaging, shopping app) via APIs, but also generate rich code with complex control flow in an iterative manner based on their interaction with the environment. However, existing benchmarks for tool use are inadequate, as they only cover tasks that require a simple sequence of API calls. To remedy this gap, we built AppWorld Engine, a high-quality execution environment (60K lines of code) of 9 day-to-day apps operable via 457 APIs and populated with realistic digital activities simulating the lives of ~100 fictitious users. We then created AppWorld Benchmark (40K lines of code), a suite of 750 natural, diverse, and challenging autonomous agent tasks requiring rich and interactive code generation. It supports robust programmatic evaluation with state-based unit tests, allowing for different ways of completing a task while also checking for unexpected changes, i.e., collateral damage. The state-of-the-art LLM, GPT-4o, solves only ~49% of our 'normal' tasks and ~30% of 'challenge' tasks, while other models solve at least 16% fewer. This highlights the benchmark's difficulty and AppWorld's potential to push the frontiers of interactive coding agents. The project website is available at https://appworld.dev/.