AppWorld: Un Mundo Controlable de Aplicaciones y Personas para la Evaluación de Agentes de Codificación Interactivos

Resumen

Los agentes autónomos que abordan tareas digitales cotidianas (por ejemplo, ordenar comestibles para un hogar) no solo deben operar múltiples aplicaciones (por ejemplo, notas, mensajería, aplicación de compras) a través de API, sino también generar código complejo con un flujo de control en forma iterativa basado en su interacción con el entorno. Sin embargo, los benchmarks existentes para el uso de herramientas son inadecuados, ya que solo cubren tareas que requieren una simple secuencia de llamadas a API. Para remediar esta brecha, construimos AppWorld Engine, un entorno de ejecución de alta calidad (60K líneas de código) de 9 aplicaciones cotidianas operables a través de 457 API y pobladas con actividades digitales realistas que simulan las vidas de ~100 usuarios ficticios. Luego creamos AppWorld Benchmark (40K líneas de código), un conjunto de 750 tareas autónomas naturales, diversas y desafiantes que requieren una generación de código rica e interactiva. Admite una evaluación programática robusta con pruebas unitarias basadas en estados, lo que permite diferentes formas de completar una tarea y también verificar cambios inesperados, es decir, daños colaterales. El LLM de vanguardia, GPT-4o, resuelve solo ~49% de nuestras tareas 'normales' y ~30% de las tareas 'desafiantes', mientras que otros modelos resuelven al menos un 16% menos. Esto destaca la dificultad del benchmark y el potencial de AppWorld para impulsar los límites de los agentes de codificación interactiva. El sitio web del proyecto está disponible en https://appworld.dev/.

English

Autonomous agents that address day-to-day digital tasks (e.g., ordering groceries for a household), must not only operate multiple apps (e.g., notes, messaging, shopping app) via APIs, but also generate rich code with complex control flow in an iterative manner based on their interaction with the environment. However, existing benchmarks for tool use are inadequate, as they only cover tasks that require a simple sequence of API calls. To remedy this gap, we built AppWorld Engine, a high-quality execution environment (60K lines of code) of 9 day-to-day apps operable via 457 APIs and populated with realistic digital activities simulating the lives of ~100 fictitious users. We then created AppWorld Benchmark (40K lines of code), a suite of 750 natural, diverse, and challenging autonomous agent tasks requiring rich and interactive code generation. It supports robust programmatic evaluation with state-based unit tests, allowing for different ways of completing a task while also checking for unexpected changes, i.e., collateral damage. The state-of-the-art LLM, GPT-4o, solves only ~49% of our 'normal' tasks and ~30% of 'challenge' tasks, while other models solve at least 16% fewer. This highlights the benchmark's difficulty and AppWorld's potential to push the frontiers of interactive coding agents. The project website is available at https://appworld.dev/.

AppWorld: Un Mundo Controlable de Aplicaciones y Personas para la Evaluación de Agentes de Codificación Interactivos

AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents

Resumen

Support