AppWorld: Eine kontrollierbare Welt von Apps und Personen zur Bewertung interaktiver Kodierungsagenten.

papers.abstract

Autonome Agenten, die alltägliche digitale Aufgaben bewältigen (z. B. Lebensmitteleinkäufe für einen Haushalt bestellen), müssen nicht nur über mehrere Apps (z. B. Notizen, Messaging, Einkaufs-App) über APIs bedient werden, sondern auch auf der Grundlage ihrer Interaktion mit der Umgebung in iterativer Weise reichhaltigen Code mit komplexem Kontrollfluss generieren. Allerdings sind bestehende Benchmarks für die Werkzeugverwendung unzureichend, da sie nur Aufgaben abdecken, die eine einfache Abfolge von API-Aufrufen erfordern. Um diese Lücke zu schließen, haben wir die AppWorld Engine entwickelt, eine hochwertige Ausführungsumgebung (60.000 Zeilen Code) von 9 alltäglichen Apps, die über 457 APIs bedienbar sind und mit realistischen digitalen Aktivitäten bevölkert sind, die das Leben von ~100 fiktiven Benutzern simulieren. Anschließend haben wir den AppWorld Benchmark (40.000 Zeilen Code) erstellt, eine Sammlung von 750 natürlichen, vielfältigen und anspruchsvollen autonomen Agentenaufgaben, die eine reiche und interaktive Codegenerierung erfordern. Er unterstützt eine robuste programmatische Bewertung mit zustandsbasierten Unit-Tests, die verschiedene Möglichkeiten zur Aufgabenerfüllung ermöglichen und gleichzeitig unerwartete Änderungen, d. h. Kollateralschäden, überprüfen. Der modernste LLM, GPT-4o, löst nur ~49% unserer 'normalen' Aufgaben und ~30% der 'Herausforderungs'-Aufgaben, während andere Modelle mindestens 16% weniger lösen. Dies unterstreicht die Schwierigkeit des Benchmarks und das Potenzial von AppWorld, die Grenzen interaktiver Kodierungsagenten voranzutreiben. Die Projektwebsite ist unter https://appworld.dev/ verfügbar.

English

Autonomous agents that address day-to-day digital tasks (e.g., ordering groceries for a household), must not only operate multiple apps (e.g., notes, messaging, shopping app) via APIs, but also generate rich code with complex control flow in an iterative manner based on their interaction with the environment. However, existing benchmarks for tool use are inadequate, as they only cover tasks that require a simple sequence of API calls. To remedy this gap, we built AppWorld Engine, a high-quality execution environment (60K lines of code) of 9 day-to-day apps operable via 457 APIs and populated with realistic digital activities simulating the lives of ~100 fictitious users. We then created AppWorld Benchmark (40K lines of code), a suite of 750 natural, diverse, and challenging autonomous agent tasks requiring rich and interactive code generation. It supports robust programmatic evaluation with state-based unit tests, allowing for different ways of completing a task while also checking for unexpected changes, i.e., collateral damage. The state-of-the-art LLM, GPT-4o, solves only ~49% of our 'normal' tasks and ~30% of 'challenge' tasks, while other models solve at least 16% fewer. This highlights the benchmark's difficulty and AppWorld's potential to push the frontiers of interactive coding agents. The project website is available at https://appworld.dev/.

AppWorld: Eine kontrollierbare Welt von Apps und Personen zur Bewertung interaktiver Kodierungsagenten.

AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents

papers.abstract

Support