ChatPaper.aiChatPaper

AppWorld: 상호작용형 코딩 에이전트 벤치마킹을 위한 앱과 사람으로 구성된 제어 가능한 세계

AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents

July 26, 2024
저자: Harsh Trivedi, Tushar Khot, Mareike Hartmann, Ruskin Manku, Vinty Dong, Edward Li, Shashank Gupta, Ashish Sabharwal, Niranjan Balasubramanian
cs.AI

초록

일상적인 디지털 작업(예: 가정용 식료품 주문)을 처리하는 자율 에이전트는 API를 통해 여러 앱(예: 메모, 메시징, 쇼핑 앱)을 조작할 뿐만 아니라, 환경과의 상호작용을 기반으로 반복적으로 복잡한 제어 흐름을 가진 풍부한 코드를 생성해야 합니다. 그러나 기존의 도구 사용 벤치마크는 단순한 API 호출 시퀀스만을 요구하는 작업만을 다루기 때문에 부적합합니다. 이러한 격차를 해소하기 위해, 우리는 457개의 API를 통해 작동하는 9개의 일상 앱과 약 100명의 가상 사용자들의 삶을 시뮬레이션한 현실적인 디지털 활동으로 구성된 고품질 실행 환경인 AppWorld Engine(6만 줄의 코드)을 구축했습니다. 또한, 우리는 풍부하고 상호작용적인 코드 생성을 요구하는 750개의 자연스럽고 다양하며 도전적인 자율 에이전트 작업으로 구성된 AppWorld Benchmark(4만 줄의 코드)를 개발했습니다. 이 벤치마크는 상태 기반 단위 테스트를 통해 강력한 프로그래밍 평가를 지원하며, 작업을 완료하는 다양한 방법을 허용하면서도 예기치 않은 변경(즉, 부수적 손상)을 확인합니다. 최첨단 LLM인 GPT-4o는 우리의 '일반' 작업 중 약 49%, '도전' 작업 중 약 30%만 해결하며, 다른 모델들은 최소 16% 더 적은 작업을 해결합니다. 이는 벤치마크의 난이도와 AppWorld가 상호작용 코딩 에이전트의 한계를 넓힐 잠재력을 강조합니다. 프로젝트 웹사이트는 https://appworld.dev/에서 확인할 수 있습니다.
English
Autonomous agents that address day-to-day digital tasks (e.g., ordering groceries for a household), must not only operate multiple apps (e.g., notes, messaging, shopping app) via APIs, but also generate rich code with complex control flow in an iterative manner based on their interaction with the environment. However, existing benchmarks for tool use are inadequate, as they only cover tasks that require a simple sequence of API calls. To remedy this gap, we built AppWorld Engine, a high-quality execution environment (60K lines of code) of 9 day-to-day apps operable via 457 APIs and populated with realistic digital activities simulating the lives of ~100 fictitious users. We then created AppWorld Benchmark (40K lines of code), a suite of 750 natural, diverse, and challenging autonomous agent tasks requiring rich and interactive code generation. It supports robust programmatic evaluation with state-based unit tests, allowing for different ways of completing a task while also checking for unexpected changes, i.e., collateral damage. The state-of-the-art LLM, GPT-4o, solves only ~49% of our 'normal' tasks and ~30% of 'challenge' tasks, while other models solve at least 16% fewer. This highlights the benchmark's difficulty and AppWorld's potential to push the frontiers of interactive coding agents. The project website is available at https://appworld.dev/.

Summary

AI-Generated Summary

PDF344November 28, 2024