ChatPaper.aiChatPaper

GameDevBench: 게임 개발을 통한 에이전트 능력 평가

GameDevBench: Evaluating Agentic Capabilities Through Game Development

February 11, 2026
저자: Wayne Chi, Yixiong Fang, Arnav Yayavaram, Siddharth Yayavaram, Seth Karten, Qiuhong Anna Wei, Runkun Chen, Alexander Wang, Valerie Chen, Ameet Talwalkar, Chris Donahue
cs.AI

초록

코딩 에이전트 분야에서의 빠른 발전에도 불구하고, 멀티모달 에이전트의 발전은 상대적으로 더딘 상황입니다. 핵심적인 과제는 소프트웨어 개발의 복잡성과 심층적인 멀티모달 이해의 필요성을 결합한 평가 테스트베드의 부족입니다. 게임 개발은 시각적 게임 장면 내에서 셰이더, 스프라이트, 애니메이션과 같은 본질적으로 멀티모달인 자산들을 조작하면서 방대하고 복잡한 코드베이스를 탐색해야 하므로 이러한 테스트베드를 제공합니다. 본 논문은 게임 개발 작업에 대한 에이전트 평가를 위한 최초의 벤치마크인 GameDevBench를 소개합니다. GameDevBench는 웹 및 비디오 튜토리얼에서 도출된 132개의 작업으로 구성됩니다. 이 작업들은 상당한 멀티모달 이해를 요구하며 매우 복잡합니다—평균적인 솔루션은 기존 소프트웨어 개발 벤치마크에 비해 3배 이상 많은 코드 라인 수와 파일 변경을 필요로 합니다. 에이전트들은 여전히 게임 개발에 어려움을 겪고 있으며, 가장 성능이 좋은 에이전트도 작업의 54.5%만 해결합니다. 우리는 인지된 작업 난이도와 멀티모달 복잡성 사이에 강한 상관관계가 있음을 발견했으며, 게임플레이 중심 작업의 46.9% 성공률에서 2D 그래픽 작업에서는 31.6%로 성공률이 하락했습니다. 멀티모달 능력을 향상시키기 위해, 우리는 에이전트를 위한 두 가지 간단한 이미지 및 비디오 기반 피드백 메커니즘을 도입합니다. 단순함에도 불구하고, 이러한 방법들은 지속적으로 성능을 향상시키며, 가장 큰 변화는 Claude Sonnet 4.5의 성능이 33.3%에서 47.7%로 증가한 것입니다. 에이전트 기반 게임 개발 연구의 추가 발전을 지원하기 위해 GameDevBench를 공개합니다.
English
Despite rapid progress on coding agents, progress on their multimodal counterparts has lagged behind. A key challenge is the scarcity of evaluation testbeds that combine the complexity of software development with the need for deep multimodal understanding. Game development provides such a testbed as agents must navigate large, dense codebases while manipulating intrinsically multimodal assets such as shaders, sprites, and animations within a visual game scene. We present GameDevBench, the first benchmark for evaluating agents on game development tasks. GameDevBench consists of 132 tasks derived from web and video tutorials. Tasks require significant multimodal understanding and are complex -- the average solution requires over three times the amount of lines of code and file changes compared to prior software development benchmarks. Agents still struggle with game development, with the best agent solving only 54.5% of tasks. We find a strong correlation between perceived task difficulty and multimodal complexity, with success rates dropping from 46.9% on gameplay-oriented tasks to 31.6% on 2D graphics tasks. To improve multimodal capability, we introduce two simple image and video-based feedback mechanisms for agents. Despite their simplicity, these methods consistently improve performance, with the largest change being an increase in Claude Sonnet 4.5's performance from 33.3% to 47.7%. We release GameDevBench publicly to support further research into agentic game development.
PDF121February 13, 2026