AppWorld: Un Mundo Controlable de Aplicaciones y Personas para la Evaluación de Agentes de Codificación Interactivos
AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents
July 26, 2024
Autores: Harsh Trivedi, Tushar Khot, Mareike Hartmann, Ruskin Manku, Vinty Dong, Edward Li, Shashank Gupta, Ashish Sabharwal, Niranjan Balasubramanian
cs.AI
Resumen
Los agentes autónomos que abordan tareas digitales cotidianas (por ejemplo, ordenar comestibles para un hogar) no solo deben operar múltiples aplicaciones (por ejemplo, notas, mensajería, aplicación de compras) a través de API, sino también generar código complejo con un flujo de control en forma iterativa basado en su interacción con el entorno. Sin embargo, los benchmarks existentes para el uso de herramientas son inadecuados, ya que solo cubren tareas que requieren una simple secuencia de llamadas a API.
Para remediar esta brecha, construimos AppWorld Engine, un entorno de ejecución de alta calidad (60K líneas de código) de 9 aplicaciones cotidianas operables a través de 457 API y pobladas con actividades digitales realistas que simulan las vidas de ~100 usuarios ficticios. Luego creamos AppWorld Benchmark (40K líneas de código), un conjunto de 750 tareas autónomas naturales, diversas y desafiantes que requieren una generación de código rica e interactiva. Admite una evaluación programática robusta con pruebas unitarias basadas en estados, lo que permite diferentes formas de completar una tarea y también verificar cambios inesperados, es decir, daños colaterales. El LLM de vanguardia, GPT-4o, resuelve solo ~49% de nuestras tareas 'normales' y ~30% de las tareas 'desafiantes', mientras que otros modelos resuelven al menos un 16% menos. Esto destaca la dificultad del benchmark y el potencial de AppWorld para impulsar los límites de los agentes de codificación interactiva. El sitio web del proyecto está disponible en https://appworld.dev/.
English
Autonomous agents that address day-to-day digital tasks (e.g., ordering
groceries for a household), must not only operate multiple apps (e.g., notes,
messaging, shopping app) via APIs, but also generate rich code with complex
control flow in an iterative manner based on their interaction with the
environment. However, existing benchmarks for tool use are inadequate, as they
only cover tasks that require a simple sequence of API calls.
To remedy this gap, we built AppWorld Engine, a high-quality
execution environment (60K lines of code) of 9 day-to-day apps operable via 457
APIs and populated with realistic digital activities simulating the lives of
~100 fictitious users. We then created AppWorld Benchmark (40K lines
of code), a suite of 750 natural, diverse, and challenging autonomous agent
tasks requiring rich and interactive code generation. It supports robust
programmatic evaluation with state-based unit tests, allowing for different
ways of completing a task while also checking for unexpected changes, i.e.,
collateral damage. The state-of-the-art LLM, GPT-4o, solves only ~49% of our
'normal' tasks and ~30% of 'challenge' tasks, while other models solve at least
16% fewer. This highlights the benchmark's difficulty and AppWorld's potential
to push the frontiers of interactive coding agents. The project website is
available at https://appworld.dev/.Summary
AI-Generated Summary