AppWorld: Eine kontrollierbare Welt von Apps und Personen zur Bewertung interaktiver Kodierungsagenten.
AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents
July 26, 2024
Autoren: Harsh Trivedi, Tushar Khot, Mareike Hartmann, Ruskin Manku, Vinty Dong, Edward Li, Shashank Gupta, Ashish Sabharwal, Niranjan Balasubramanian
cs.AI
Zusammenfassung
Autonome Agenten, die alltägliche digitale Aufgaben bewältigen (z. B. Lebensmitteleinkäufe für einen Haushalt bestellen), müssen nicht nur über mehrere Apps (z. B. Notizen, Messaging, Einkaufs-App) über APIs bedient werden, sondern auch auf der Grundlage ihrer Interaktion mit der Umgebung in iterativer Weise reichhaltigen Code mit komplexem Kontrollfluss generieren. Allerdings sind bestehende Benchmarks für die Werkzeugverwendung unzureichend, da sie nur Aufgaben abdecken, die eine einfache Abfolge von API-Aufrufen erfordern.
Um diese Lücke zu schließen, haben wir die AppWorld Engine entwickelt, eine hochwertige Ausführungsumgebung (60.000 Zeilen Code) von 9 alltäglichen Apps, die über 457 APIs bedienbar sind und mit realistischen digitalen Aktivitäten bevölkert sind, die das Leben von ~100 fiktiven Benutzern simulieren. Anschließend haben wir den AppWorld Benchmark (40.000 Zeilen Code) erstellt, eine Sammlung von 750 natürlichen, vielfältigen und anspruchsvollen autonomen Agentenaufgaben, die eine reiche und interaktive Codegenerierung erfordern. Er unterstützt eine robuste programmatische Bewertung mit zustandsbasierten Unit-Tests, die verschiedene Möglichkeiten zur Aufgabenerfüllung ermöglichen und gleichzeitig unerwartete Änderungen, d. h. Kollateralschäden, überprüfen. Der modernste LLM, GPT-4o, löst nur ~49% unserer 'normalen' Aufgaben und ~30% der 'Herausforderungs'-Aufgaben, während andere Modelle mindestens 16% weniger lösen. Dies unterstreicht die Schwierigkeit des Benchmarks und das Potenzial von AppWorld, die Grenzen interaktiver Kodierungsagenten voranzutreiben. Die Projektwebsite ist unter https://appworld.dev/ verfügbar.
English
Autonomous agents that address day-to-day digital tasks (e.g., ordering
groceries for a household), must not only operate multiple apps (e.g., notes,
messaging, shopping app) via APIs, but also generate rich code with complex
control flow in an iterative manner based on their interaction with the
environment. However, existing benchmarks for tool use are inadequate, as they
only cover tasks that require a simple sequence of API calls.
To remedy this gap, we built AppWorld Engine, a high-quality
execution environment (60K lines of code) of 9 day-to-day apps operable via 457
APIs and populated with realistic digital activities simulating the lives of
~100 fictitious users. We then created AppWorld Benchmark (40K lines
of code), a suite of 750 natural, diverse, and challenging autonomous agent
tasks requiring rich and interactive code generation. It supports robust
programmatic evaluation with state-based unit tests, allowing for different
ways of completing a task while also checking for unexpected changes, i.e.,
collateral damage. The state-of-the-art LLM, GPT-4o, solves only ~49% of our
'normal' tasks and ~30% of 'challenge' tasks, while other models solve at least
16% fewer. This highlights the benchmark's difficulty and AppWorld's potential
to push the frontiers of interactive coding agents. The project website is
available at https://appworld.dev/.Summary
AI-Generated Summary