AppWorld: Een Beheersbare Wereld van Apps en Mensen voor het Benchmarken van Interactieve Codeeragentschappen

Samenvatting

Autonome agents die alledaagse digitale taken uitvoeren (bijvoorbeeld het bestellen van boodschappen voor een huishouden), moeten niet alleen meerdere apps (zoals notities, berichten en een winkelapp) bedienen via API's, maar ook uitgebreide code genereren met complexe controleflow op een iteratieve manier, gebaseerd op hun interactie met de omgeving. Bestaande benchmarks voor toolgebruik zijn echter ontoereikend, omdat ze alleen taken omvatten die een eenvoudige reeks API-aanroepen vereisen. Om dit gat te dichten, hebben we de AppWorld Engine gebouwd, een hoogwaardige uitvoeringsomgeving (60K regels code) met 9 alledaagse apps die bedienbaar zijn via 457 API's en gevuld met realistische digitale activiteiten die het leven simuleren van ~100 fictieve gebruikers. Vervolgens hebben we de AppWorld Benchmark (40K regels code) gecreëerd, een suite van 750 natuurlijke, diverse en uitdagende taken voor autonome agents die rijke en interactieve codegeneratie vereisen. Het ondersteunt robuuste programmatische evaluatie met state-based unit tests, waardoor verschillende manieren om een taak te voltooien mogelijk zijn, terwijl ook wordt gecontroleerd op onverwachte wijzigingen, zogenaamde collateral damage. De state-of-the-art LLM, GPT-4o, lost slechts ~49% van onze 'normale' taken en ~30% van de 'uitdagende' taken op, terwijl andere modellen minstens 16% minder oplossen. Dit benadrukt de moeilijkheidsgraad van de benchmark en het potentieel van AppWorld om de grenzen van interactieve coderende agents te verleggen. De projectwebsite is beschikbaar op https://appworld.dev/.

English

Autonomous agents that address day-to-day digital tasks (e.g., ordering groceries for a household), must not only operate multiple apps (e.g., notes, messaging, shopping app) via APIs, but also generate rich code with complex control flow in an iterative manner based on their interaction with the environment. However, existing benchmarks for tool use are inadequate, as they only cover tasks that require a simple sequence of API calls. To remedy this gap, we built AppWorld Engine, a high-quality execution environment (60K lines of code) of 9 day-to-day apps operable via 457 APIs and populated with realistic digital activities simulating the lives of ~100 fictitious users. We then created AppWorld Benchmark (40K lines of code), a suite of 750 natural, diverse, and challenging autonomous agent tasks requiring rich and interactive code generation. It supports robust programmatic evaluation with state-based unit tests, allowing for different ways of completing a task while also checking for unexpected changes, i.e., collateral damage. The state-of-the-art LLM, GPT-4o, solves only ~49% of our 'normal' tasks and ~30% of 'challenge' tasks, while other models solve at least 16% fewer. This highlights the benchmark's difficulty and AppWorld's potential to push the frontiers of interactive coding agents. The project website is available at https://appworld.dev/.

AppWorld: Een Beheersbare Wereld van Apps en Mensen voor het Benchmarken van Interactieve Codeeragentschappen

AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents

Samenvatting

Support