GameDevBench: ゲーム開発を通じたエージェント能力の評価
GameDevBench: Evaluating Agentic Capabilities Through Game Development
February 11, 2026
著者: Wayne Chi, Yixiong Fang, Arnav Yayavaram, Siddharth Yayavaram, Seth Karten, Qiuhong Anna Wei, Runkun Chen, Alexander Wang, Valerie Chen, Ameet Talwalkar, Chris Donahue
cs.AI
要旨
コーディングエージェントの急速な進展にもかかわらず、そのマルチモーダル版の進歩は遅れている。主要な課題は、ソフトウェア開発の複雑さと、深いマルチモーダル理解の必要性を組み合わせた評価用テストベッドの不足である。ゲーム開発は、エージェントが大規模で高密度なコードベースを操作しつつ、ビジュアルなゲームシーン内のシェーダー、スプライト、アニメーションといった本質的にマルチモーダルなアセットを扱わなければならないため、そのようなテストベッドを提供する。我々は、ゲーム開発タスクにおけるエージェント評価のための最初のベンチマークであるGameDevBenchを提案する。GameDevBenchは、Webおよび動画チュートリアルから抽出された132のタスクで構成される。タスクは重要なマルチモーダル理解を必要とし、従来のソフトウェア開発ベンチマークと比較して、平均的な解決策には3倍以上のコード行数とファイル変更が必要であるという点で複雑である。エージェントは依然としてゲーム開発に苦戦しており、最高のエージェントでもタスクの54.5%しか解決できない。タスクの主観的難易度とマルチモーダル複雑性の間に強い相関が見られ、ゲームプレイ指向タスクでの成功率46.9%から、2Dグラフィックスタスクでは31.6%に低下する。マルチモーダル能力を向上させるため、我々はエージェント向けの2つのシンプルな画像および動画ベースのフィードバック機構を導入する。その単純さにもかかわらず、これらの方法は一貫して性能を向上させ、最大の変化はClaude Sonnet 4.5の性能が33.3%から47.7%に増加したことである。エージェントによるゲーム開発のさらなる研究を支援するため、GameDevBenchを公開する。
English
Despite rapid progress on coding agents, progress on their multimodal counterparts has lagged behind. A key challenge is the scarcity of evaluation testbeds that combine the complexity of software development with the need for deep multimodal understanding. Game development provides such a testbed as agents must navigate large, dense codebases while manipulating intrinsically multimodal assets such as shaders, sprites, and animations within a visual game scene. We present GameDevBench, the first benchmark for evaluating agents on game development tasks. GameDevBench consists of 132 tasks derived from web and video tutorials. Tasks require significant multimodal understanding and are complex -- the average solution requires over three times the amount of lines of code and file changes compared to prior software development benchmarks. Agents still struggle with game development, with the best agent solving only 54.5% of tasks. We find a strong correlation between perceived task difficulty and multimodal complexity, with success rates dropping from 46.9% on gameplay-oriented tasks to 31.6% on 2D graphics tasks. To improve multimodal capability, we introduce two simple image and video-based feedback mechanisms for agents. Despite their simplicity, these methods consistently improve performance, with the largest change being an increase in Claude Sonnet 4.5's performance from 33.3% to 47.7%. We release GameDevBench publicly to support further research into agentic game development.