AppWorld : Un monde contrôlable d'applications et de personnes pour l'évaluation des agents de codage interactifs

papers.abstract

Les agents autonomes qui s'occupent de tâches numériques quotidiennes (par exemple, commander des courses pour un foyer) doivent non seulement manipuler plusieurs applications (par exemple, notes, messagerie, application d'achats) via des API, mais aussi générer du code riche avec un flux de contrôle complexe de manière itérative, en fonction de leur interaction avec l'environnement. Cependant, les benchmarks existants pour l'utilisation d'outils sont insuffisants, car ils ne couvrent que des tâches nécessitant une simple séquence d'appels d'API. Pour combler cette lacune, nous avons développé AppWorld Engine, un environnement d'exécution de haute qualité (60 000 lignes de code) comprenant 9 applications quotidiennes opérables via 457 API et peuplé d'activités numériques réalistes simulant la vie d'environ 100 utilisateurs fictifs. Nous avons ensuite créé AppWorld Benchmark (40 000 lignes de code), une suite de 750 tâches naturelles, diversifiées et complexes pour les agents autonomes, nécessitant une génération de code riche et interactive. Il prend en charge une évaluation programmatique robuste avec des tests unitaires basés sur l'état, permettant différentes manières d'accomplir une tâche tout en vérifiant les changements inattendus, c'est-à-dire les dommages collatéraux. Le modèle de pointe, GPT-4o, ne résout qu'environ 49 % de nos tâches "normales" et environ 30 % des tâches "défi", tandis que les autres modèles en résolvent au moins 16 % de moins. Cela met en évidence la difficulté du benchmark et le potentiel d'AppWorld à repousser les frontières des agents de codage interactifs. Le site web du projet est disponible à l'adresse https://appworld.dev/.

English

Autonomous agents that address day-to-day digital tasks (e.g., ordering groceries for a household), must not only operate multiple apps (e.g., notes, messaging, shopping app) via APIs, but also generate rich code with complex control flow in an iterative manner based on their interaction with the environment. However, existing benchmarks for tool use are inadequate, as they only cover tasks that require a simple sequence of API calls. To remedy this gap, we built AppWorld Engine, a high-quality execution environment (60K lines of code) of 9 day-to-day apps operable via 457 APIs and populated with realistic digital activities simulating the lives of ~100 fictitious users. We then created AppWorld Benchmark (40K lines of code), a suite of 750 natural, diverse, and challenging autonomous agent tasks requiring rich and interactive code generation. It supports robust programmatic evaluation with state-based unit tests, allowing for different ways of completing a task while also checking for unexpected changes, i.e., collateral damage. The state-of-the-art LLM, GPT-4o, solves only ~49% of our 'normal' tasks and ~30% of 'challenge' tasks, while other models solve at least 16% fewer. This highlights the benchmark's difficulty and AppWorld's potential to push the frontiers of interactive coding agents. The project website is available at https://appworld.dev/.

AppWorld : Un monde contrôlable d'applications et de personnes pour l'évaluation des agents de codage interactifs

AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents

papers.abstract

Support