AppWorld: Un Mondo Controllabile di App e Persone per il Benchmarking di Agenti di Codifica Interattivi
AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents
July 26, 2024
Autori: Harsh Trivedi, Tushar Khot, Mareike Hartmann, Ruskin Manku, Vinty Dong, Edward Li, Shashank Gupta, Ashish Sabharwal, Niranjan Balasubramanian
cs.AI
Abstract
Gli agenti autonomi che affrontano compiti digitali quotidiani (ad esempio, ordinare la spesa per una famiglia) non solo devono operare su più app (ad esempio, note, messaggistica, app di shopping) tramite API, ma anche generare codice complesso con un flusso di controllo articolato in modo iterativo, basandosi sulla loro interazione con l'ambiente. Tuttavia, i benchmark esistenti per l'uso di strumenti sono inadeguati, poiché coprono solo compiti che richiedono una semplice sequenza di chiamate API.
Per colmare questa lacuna, abbiamo creato AppWorld Engine, un ambiente di esecuzione di alta qualità (60K righe di codice) composto da 9 app quotidiane operabili tramite 457 API e popolato con attività digitali realistiche che simulano la vita di circa 100 utenti fittizi. Abbiamo quindi sviluppato AppWorld Benchmark (40K righe di codice), una suite di 750 compiti naturali, diversificati e impegnativi per agenti autonomi, che richiedono la generazione di codice ricco e interattivo. Supporta una valutazione programmatica robusta con test unitari basati sullo stato, consentendo diversi modi di completare un compito e verificando la presenza di modifiche impreviste, ovvero danni collaterali. Lo stato dell'arte degli LLM, GPT-4o, risolve solo circa il 49% dei nostri compiti "normali" e circa il 30% dei compiti "sfida", mentre altri modelli risolvono almeno il 16% in meno. Ciò evidenzia la difficoltà del benchmark e il potenziale di AppWorld di spingere le frontiere degli agenti di codifica interattiva. Il sito web del progetto è disponibile all'indirizzo https://appworld.dev/.
English
Autonomous agents that address day-to-day digital tasks (e.g., ordering
groceries for a household), must not only operate multiple apps (e.g., notes,
messaging, shopping app) via APIs, but also generate rich code with complex
control flow in an iterative manner based on their interaction with the
environment. However, existing benchmarks for tool use are inadequate, as they
only cover tasks that require a simple sequence of API calls.
To remedy this gap, we built AppWorld Engine, a high-quality
execution environment (60K lines of code) of 9 day-to-day apps operable via 457
APIs and populated with realistic digital activities simulating the lives of
~100 fictitious users. We then created AppWorld Benchmark (40K lines
of code), a suite of 750 natural, diverse, and challenging autonomous agent
tasks requiring rich and interactive code generation. It supports robust
programmatic evaluation with state-based unit tests, allowing for different
ways of completing a task while also checking for unexpected changes, i.e.,
collateral damage. The state-of-the-art LLM, GPT-4o, solves only ~49% of our
'normal' tasks and ~30% of 'challenge' tasks, while other models solve at least
16% fewer. This highlights the benchmark's difficulty and AppWorld's potential
to push the frontiers of interactive coding agents. The project website is
available at https://appworld.dev/.