ChatPaper.aiChatPaper

GameDevBench: Оценка агентных возможностей посредством разработки игр

GameDevBench: Evaluating Agentic Capabilities Through Game Development

February 11, 2026
Авторы: Wayne Chi, Yixiong Fang, Arnav Yayavaram, Siddharth Yayavaram, Seth Karten, Qiuhong Anna Wei, Runkun Chen, Alexander Wang, Valerie Chen, Ameet Talwalkar, Chris Donahue
cs.AI

Аннотация

Несмотря на быстрый прогресс в создании кодирующих агентов, развитие их мультимодальных аналогов заметно отстает. Ключевой проблемой является нехватка оценочных тестовых сред, которые сочетают сложность разработки программного обеспечения с необходимостью глубокого мультимодального понимания. Разработка игр предоставляет такую среду, поскольку агенты должны ориентироваться в больших, сложных кодобазах, одновременно управляя внутренне мультимодальными ресурсами, такими как шейдеры, спрайты и анимация, в рамках визуальной игровой сцены. Мы представляем GameDevBench — первый бенчмарк для оценки агентов на задачах игровой разработки. GameDevBench состоит из 132 задач, взятых из веб- и видео-туториалов. Задачи требуют значительного мультимодального понимания и являются сложными — среднее решение требует более чем в три раза больше строк кода и изменений файлов по сравнению с предыдущими бенчмарками по разработке ПО. Агенты по-прежнему испытывают трудности с игровой разработкой: лучший агент решает только 54,5% задач. Мы обнаружили сильную корреляцию между воспринимаемой сложностью задачи и мультимодальной сложностью: уровень успеха падает с 46,9% для задач, ориентированных на геймплей, до 31,6% для задач по 2D-графике. Для улучшения мультимодальных возможностей мы представляем два простых механизма обратной связи для агентов на основе изображений и видео. Несмотря на свою простоту, эти методы стабильно улучшают производительность, причем наибольшее изменение — рост производительности Claude Sonnet 4.5 с 33,3% до 47,7%. Мы публикуем GameDevBench в открытом доступе для поддержки дальнейших исследований в области агентной разработки игр.
English
Despite rapid progress on coding agents, progress on their multimodal counterparts has lagged behind. A key challenge is the scarcity of evaluation testbeds that combine the complexity of software development with the need for deep multimodal understanding. Game development provides such a testbed as agents must navigate large, dense codebases while manipulating intrinsically multimodal assets such as shaders, sprites, and animations within a visual game scene. We present GameDevBench, the first benchmark for evaluating agents on game development tasks. GameDevBench consists of 132 tasks derived from web and video tutorials. Tasks require significant multimodal understanding and are complex -- the average solution requires over three times the amount of lines of code and file changes compared to prior software development benchmarks. Agents still struggle with game development, with the best agent solving only 54.5% of tasks. We find a strong correlation between perceived task difficulty and multimodal complexity, with success rates dropping from 46.9% on gameplay-oriented tasks to 31.6% on 2D graphics tasks. To improve multimodal capability, we introduce two simple image and video-based feedback mechanisms for agents. Despite their simplicity, these methods consistently improve performance, with the largest change being an increase in Claude Sonnet 4.5's performance from 33.3% to 47.7%. We release GameDevBench publicly to support further research into agentic game development.
PDF121February 13, 2026