AppWorld: Een Beheersbare Wereld van Apps en Mensen voor het Benchmarken van Interactieve Codeeragentschappen
AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents
July 26, 2024
Auteurs: Harsh Trivedi, Tushar Khot, Mareike Hartmann, Ruskin Manku, Vinty Dong, Edward Li, Shashank Gupta, Ashish Sabharwal, Niranjan Balasubramanian
cs.AI
Samenvatting
Autonome agents die alledaagse digitale taken uitvoeren (bijvoorbeeld het bestellen van boodschappen voor een huishouden), moeten niet alleen meerdere apps (zoals notities, berichten en een winkelapp) bedienen via API's, maar ook uitgebreide code genereren met complexe controleflow op een iteratieve manier, gebaseerd op hun interactie met de omgeving. Bestaande benchmarks voor toolgebruik zijn echter ontoereikend, omdat ze alleen taken omvatten die een eenvoudige reeks API-aanroepen vereisen.
Om dit gat te dichten, hebben we de AppWorld Engine gebouwd, een hoogwaardige uitvoeringsomgeving (60K regels code) met 9 alledaagse apps die bedienbaar zijn via 457 API's en gevuld met realistische digitale activiteiten die het leven simuleren van ~100 fictieve gebruikers. Vervolgens hebben we de AppWorld Benchmark (40K regels code) gecreëerd, een suite van 750 natuurlijke, diverse en uitdagende taken voor autonome agents die rijke en interactieve codegeneratie vereisen. Het ondersteunt robuuste programmatische evaluatie met state-based unit tests, waardoor verschillende manieren om een taak te voltooien mogelijk zijn, terwijl ook wordt gecontroleerd op onverwachte wijzigingen, zogenaamde collateral damage. De state-of-the-art LLM, GPT-4o, lost slechts ~49% van onze 'normale' taken en ~30% van de 'uitdagende' taken op, terwijl andere modellen minstens 16% minder oplossen. Dit benadrukt de moeilijkheidsgraad van de benchmark en het potentieel van AppWorld om de grenzen van interactieve coderende agents te verleggen. De projectwebsite is beschikbaar op https://appworld.dev/.
English
Autonomous agents that address day-to-day digital tasks (e.g., ordering
groceries for a household), must not only operate multiple apps (e.g., notes,
messaging, shopping app) via APIs, but also generate rich code with complex
control flow in an iterative manner based on their interaction with the
environment. However, existing benchmarks for tool use are inadequate, as they
only cover tasks that require a simple sequence of API calls.
To remedy this gap, we built AppWorld Engine, a high-quality
execution environment (60K lines of code) of 9 day-to-day apps operable via 457
APIs and populated with realistic digital activities simulating the lives of
~100 fictitious users. We then created AppWorld Benchmark (40K lines
of code), a suite of 750 natural, diverse, and challenging autonomous agent
tasks requiring rich and interactive code generation. It supports robust
programmatic evaluation with state-based unit tests, allowing for different
ways of completing a task while also checking for unexpected changes, i.e.,
collateral damage. The state-of-the-art LLM, GPT-4o, solves only ~49% of our
'normal' tasks and ~30% of 'challenge' tasks, while other models solve at least
16% fewer. This highlights the benchmark's difficulty and AppWorld's potential
to push the frontiers of interactive coding agents. The project website is
available at https://appworld.dev/.