AppWorld: Управляемый мир приложений и людей для проведения бенчмаркинга интерактивных кодирующих агентов.
AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents
July 26, 2024
Авторы: Harsh Trivedi, Tushar Khot, Mareike Hartmann, Ruskin Manku, Vinty Dong, Edward Li, Shashank Gupta, Ashish Sabharwal, Niranjan Balasubramanian
cs.AI
Аннотация
Автономные агенты, которые занимаются повседневными цифровыми задачами (например, заказ продуктов для домашнего хозяйства), должны не только работать с несколькими приложениями (например, заметки, обмен сообщениями, приложение для покупок) через API, но и генерировать сложный код с комплексным управлением в итеративном режиме на основе их взаимодействия с окружающей средой. Однако существующие бенчмарки для использования инструментов недостаточны, поскольку они охватывают только задачи, требующие простой последовательности вызовов API.
Для устранения этого пробела мы создали AppWorld Engine - высококачественную среду выполнения (60 тыс. строк кода) из 9 повседневных приложений, управляемых через 457 API и заполненных реалистичными цифровыми активностями, имитирующими жизнь ~100 вымышленных пользователей. Затем мы создали AppWorld Benchmark (40 тыс. строк кода) - набор из 750 естественных, разнообразных и сложных задач для автономных агентов, требующих генерации богатого и интерактивного кода. Он поддерживает надежное программное оценивание с использованием модульных тестов на основе состояния, позволяя различные способы выполнения задачи, а также проверку на неожиданные изменения, т.е. побочный ущерб. Современная модель LLM, GPT-4o, решает только ~49% наших 'обычных' задач и ~30% 'сложных' задач, в то время как другие модели решают как минимум на 16% меньше. Это подчеркивает сложность бенчмарка и потенциал AppWorld для продвижения границ интерактивных кодирующих агентов. Веб-сайт проекта доступен по адресу https://appworld.dev/.
English
Autonomous agents that address day-to-day digital tasks (e.g., ordering
groceries for a household), must not only operate multiple apps (e.g., notes,
messaging, shopping app) via APIs, but also generate rich code with complex
control flow in an iterative manner based on their interaction with the
environment. However, existing benchmarks for tool use are inadequate, as they
only cover tasks that require a simple sequence of API calls.
To remedy this gap, we built AppWorld Engine, a high-quality
execution environment (60K lines of code) of 9 day-to-day apps operable via 457
APIs and populated with realistic digital activities simulating the lives of
~100 fictitious users. We then created AppWorld Benchmark (40K lines
of code), a suite of 750 natural, diverse, and challenging autonomous agent
tasks requiring rich and interactive code generation. It supports robust
programmatic evaluation with state-based unit tests, allowing for different
ways of completing a task while also checking for unexpected changes, i.e.,
collateral damage. The state-of-the-art LLM, GPT-4o, solves only ~49% of our
'normal' tasks and ~30% of 'challenge' tasks, while other models solve at least
16% fewer. This highlights the benchmark's difficulty and AppWorld's potential
to push the frontiers of interactive coding agents. The project website is
available at https://appworld.dev/.Summary
AI-Generated Summary