ChatPaper.aiChatPaper

GameDevBench : Évaluation des capacités agentielles par le développement de jeux

GameDevBench: Evaluating Agentic Capabilities Through Game Development

February 11, 2026
papers.authors: Wayne Chi, Yixiong Fang, Arnav Yayavaram, Siddharth Yayavaram, Seth Karten, Qiuhong Anna Wei, Runkun Chen, Alexander Wang, Valerie Chen, Ameet Talwalkar, Chris Donahue
cs.AI

papers.abstract

Malgré les progrès rapides réalisés sur les agents de codage, les avancées concernant leurs équivalents multimodaux sont à la traîne. Un défi majeur réside dans la rareté des bancs d'évaluation qui combinent la complexité du développement logiciel et la nécessité d'une compréhension multimodale approfondie. Le développement de jeux vidéo constitue un tel banc d'essai, car les agents doivent naviguer dans des bases de code vastes et denses tout en manipulant des ressources intrinsèquement multimodales, telles que les shaders, les sprites et les animations, au sein d'une scène de jeu visuelle. Nous présentons GameDevBench, le premier benchmark conçu pour évaluer les agents sur des tâches de développement de jeux. GameDevBench se compose de 132 tâches dérivées de tutoriels web et vidéo. Ces tâches nécessitent une compréhension multimodale significative et sont complexes : la solution moyenne requiert plus de trois fois le nombre de lignes de code et de modifications de fichiers par rapport aux benchmarks de développement logiciel antérieurs. Les agents éprouvent encore des difficultés avec le développement de jeux, le meilleur agent ne résolvant que 54,5 % des tâches. Nous observons une forte corrélation entre la difficulté perçue d'une tâche et sa complexité multimodale, les taux de réussite chutant de 46,9 % pour les tâches axées sur le gameplay à 31,6 % pour les tâches graphiques 2D. Pour améliorer les capacités multimodales, nous introduisons deux mécanismes de rétroaction simples pour les agents, basés sur l'image et la vidéo. Malgré leur simplicité, ces méthodes améliorent constamment les performances, la plus forte augmentation étant une amélioration des performances de Claude Sonnet 4.5, passant de 33,3 % à 47,7 %. Nous rendons GameDevBench public pour soutenir les recherches futures sur le développement de jeux par des agents.
English
Despite rapid progress on coding agents, progress on their multimodal counterparts has lagged behind. A key challenge is the scarcity of evaluation testbeds that combine the complexity of software development with the need for deep multimodal understanding. Game development provides such a testbed as agents must navigate large, dense codebases while manipulating intrinsically multimodal assets such as shaders, sprites, and animations within a visual game scene. We present GameDevBench, the first benchmark for evaluating agents on game development tasks. GameDevBench consists of 132 tasks derived from web and video tutorials. Tasks require significant multimodal understanding and are complex -- the average solution requires over three times the amount of lines of code and file changes compared to prior software development benchmarks. Agents still struggle with game development, with the best agent solving only 54.5% of tasks. We find a strong correlation between perceived task difficulty and multimodal complexity, with success rates dropping from 46.9% on gameplay-oriented tasks to 31.6% on 2D graphics tasks. To improve multimodal capability, we introduce two simple image and video-based feedback mechanisms for agents. Despite their simplicity, these methods consistently improve performance, with the largest change being an increase in Claude Sonnet 4.5's performance from 33.3% to 47.7%. We release GameDevBench publicly to support further research into agentic game development.
PDF121February 13, 2026