ChatPaper.aiChatPaper

AppWorld: インタラクティブコーディングエージェントのベンチマークのためのアプリと人々の制御可能な世界

AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents

July 26, 2024
著者: Harsh Trivedi, Tushar Khot, Mareike Hartmann, Ruskin Manku, Vinty Dong, Edward Li, Shashank Gupta, Ashish Sabharwal, Niranjan Balasubramanian
cs.AI

要旨

日常的なデジタルタスク(例:世帯の食料品の注文)に対処する自律エージェントは、APIを介して複数のアプリ(例:メモ、メッセージング、ショッピングアプリ)を操作するだけでなく、環境との相互作用に基づいて複雑な制御フローを持つ豊富なコードを反復的に生成する必要がある。しかし、既存のツール使用のベンチマークは不十分であり、単純なAPI呼び出しのシーケンスを必要とするタスクしかカバーしていない。 このギャップを埋めるため、我々はAppWorld Engineを構築した。これは、457のAPIを介して操作可能な9つの日常アプリからなる高品質の実行環境(6万行のコード)であり、約100人の架空のユーザーの生活をシミュレートする現実的なデジタル活動が組み込まれている。さらに、AppWorld Benchmark(4万行のコード)を作成し、750の自然で多様かつ挑戦的な自律エージェントタスクを提供する。これらのタスクは、豊かでインタラクティブなコード生成を必要とし、状態ベースのユニットテストによる堅牢なプログラム評価をサポートする。これにより、タスクを完了するための異なる方法を許容しつつ、予期せぬ変更(すなわち、副次的損害)をチェックすることができる。最先端のLLMであるGPT-4oは、我々の「通常」タスクの約49%と「挑戦」タスクの約30%しか解決できないのに対し、他のモデルは少なくとも16%少ない結果となった。これは、ベンチマークの難易度と、AppWorldがインタラクティブなコーディングエージェントのフロンティアを押し広げる可能性を示している。プロジェクトのウェブサイトはhttps://appworld.dev/で公開されている。
English
Autonomous agents that address day-to-day digital tasks (e.g., ordering groceries for a household), must not only operate multiple apps (e.g., notes, messaging, shopping app) via APIs, but also generate rich code with complex control flow in an iterative manner based on their interaction with the environment. However, existing benchmarks for tool use are inadequate, as they only cover tasks that require a simple sequence of API calls. To remedy this gap, we built AppWorld Engine, a high-quality execution environment (60K lines of code) of 9 day-to-day apps operable via 457 APIs and populated with realistic digital activities simulating the lives of ~100 fictitious users. We then created AppWorld Benchmark (40K lines of code), a suite of 750 natural, diverse, and challenging autonomous agent tasks requiring rich and interactive code generation. It supports robust programmatic evaluation with state-based unit tests, allowing for different ways of completing a task while also checking for unexpected changes, i.e., collateral damage. The state-of-the-art LLM, GPT-4o, solves only ~49% of our 'normal' tasks and ~30% of 'challenge' tasks, while other models solve at least 16% fewer. This highlights the benchmark's difficulty and AppWorld's potential to push the frontiers of interactive coding agents. The project website is available at https://appworld.dev/.

Summary

AI-Generated Summary

PDF344November 28, 2024