AppWorld : Un monde contrôlable d'applications et de personnes pour l'évaluation des agents de codage interactifs
AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents
July 26, 2024
Auteurs: Harsh Trivedi, Tushar Khot, Mareike Hartmann, Ruskin Manku, Vinty Dong, Edward Li, Shashank Gupta, Ashish Sabharwal, Niranjan Balasubramanian
cs.AI
Résumé
Les agents autonomes qui s'occupent de tâches numériques quotidiennes (par exemple, commander des courses pour un foyer) doivent non seulement manipuler plusieurs applications (par exemple, notes, messagerie, application d'achats) via des API, mais aussi générer du code riche avec un flux de contrôle complexe de manière itérative, en fonction de leur interaction avec l'environnement. Cependant, les benchmarks existants pour l'utilisation d'outils sont insuffisants, car ils ne couvrent que des tâches nécessitant une simple séquence d'appels d'API.
Pour combler cette lacune, nous avons développé AppWorld Engine, un environnement d'exécution de haute qualité (60 000 lignes de code) comprenant 9 applications quotidiennes opérables via 457 API et peuplé d'activités numériques réalistes simulant la vie d'environ 100 utilisateurs fictifs. Nous avons ensuite créé AppWorld Benchmark (40 000 lignes de code), une suite de 750 tâches naturelles, diversifiées et complexes pour les agents autonomes, nécessitant une génération de code riche et interactive. Il prend en charge une évaluation programmatique robuste avec des tests unitaires basés sur l'état, permettant différentes manières d'accomplir une tâche tout en vérifiant les changements inattendus, c'est-à-dire les dommages collatéraux. Le modèle de pointe, GPT-4o, ne résout qu'environ 49 % de nos tâches "normales" et environ 30 % des tâches "défi", tandis que les autres modèles en résolvent au moins 16 % de moins. Cela met en évidence la difficulté du benchmark et le potentiel d'AppWorld à repousser les frontières des agents de codage interactifs. Le site web du projet est disponible à l'adresse https://appworld.dev/.
English
Autonomous agents that address day-to-day digital tasks (e.g., ordering
groceries for a household), must not only operate multiple apps (e.g., notes,
messaging, shopping app) via APIs, but also generate rich code with complex
control flow in an iterative manner based on their interaction with the
environment. However, existing benchmarks for tool use are inadequate, as they
only cover tasks that require a simple sequence of API calls.
To remedy this gap, we built AppWorld Engine, a high-quality
execution environment (60K lines of code) of 9 day-to-day apps operable via 457
APIs and populated with realistic digital activities simulating the lives of
~100 fictitious users. We then created AppWorld Benchmark (40K lines
of code), a suite of 750 natural, diverse, and challenging autonomous agent
tasks requiring rich and interactive code generation. It supports robust
programmatic evaluation with state-based unit tests, allowing for different
ways of completing a task while also checking for unexpected changes, i.e.,
collateral damage. The state-of-the-art LLM, GPT-4o, solves only ~49% of our
'normal' tasks and ~30% of 'challenge' tasks, while other models solve at least
16% fewer. This highlights the benchmark's difficulty and AppWorld's potential
to push the frontiers of interactive coding agents. The project website is
available at https://appworld.dev/.Summary
AI-Generated Summary