ChatPaper.aiChatPaper

GameDevBench: Evaluación de Capacidades Agentes Mediante el Desarrollo de Videojuegos

GameDevBench: Evaluating Agentic Capabilities Through Game Development

February 11, 2026
Autores: Wayne Chi, Yixiong Fang, Arnav Yayavaram, Siddharth Yayavaram, Seth Karten, Qiuhong Anna Wei, Runkun Chen, Alexander Wang, Valerie Chen, Ameet Talwalkar, Chris Donahue
cs.AI

Resumen

A pesar del rápido progreso en agentes de codificación, los avances en sus contrapartes multimodales han ido a la zaga. Un desafío clave es la escasez de bancos de pruebas de evaluación que combinen la complejidad del desarrollo de software con la necesidad de una comprensión multimodal profunda. El desarrollo de videojuegos proporciona un banco de pruebas de este tipo, ya que los agentes deben navegar por bases de código grandes y densas mientras manipulan activos intrínsecamente multimodales, como sombreadores, sprites y animaciones, dentro de una escena de juego visual. Presentamos GameDevBench, el primer punto de referencia para evaluar agentes en tareas de desarrollo de videojuegos. GameDevBench consta de 132 tareas derivadas de tutoriales web y en video. Las tareas requieren una comprensión multimodal significativa y son complejas: la solución promedio requiere más del triple de líneas de código y cambios de archivo en comparación con los puntos de referencia anteriores de desarrollo de software. Los agentes aún tienen dificultades con el desarrollo de videojuegos, y el mejor agente resuelve solo el 54.5% de las tareas. Encontramos una fuerte correlación entre la dificultad percibida de la tarea y la complejidad multimodal, con tasas de éxito que caen del 46.9% en tareas orientadas al juego al 31.6% en tareas de gráficos 2D. Para mejorar la capacidad multimodal, presentamos dos mecanismos de retroalimentación simples basados en imágenes y video para agentes. A pesar de su simplicidad, estos métodos mejoran consistentemente el rendimiento, siendo el cambio más grande un aumento en el rendimiento de Claude Sonnet 4.5 del 33.3% al 47.7%. Publicamos GameDevBench para apoyar más investigación en el desarrollo de videojuegos agentivo.
English
Despite rapid progress on coding agents, progress on their multimodal counterparts has lagged behind. A key challenge is the scarcity of evaluation testbeds that combine the complexity of software development with the need for deep multimodal understanding. Game development provides such a testbed as agents must navigate large, dense codebases while manipulating intrinsically multimodal assets such as shaders, sprites, and animations within a visual game scene. We present GameDevBench, the first benchmark for evaluating agents on game development tasks. GameDevBench consists of 132 tasks derived from web and video tutorials. Tasks require significant multimodal understanding and are complex -- the average solution requires over three times the amount of lines of code and file changes compared to prior software development benchmarks. Agents still struggle with game development, with the best agent solving only 54.5% of tasks. We find a strong correlation between perceived task difficulty and multimodal complexity, with success rates dropping from 46.9% on gameplay-oriented tasks to 31.6% on 2D graphics tasks. To improve multimodal capability, we introduce two simple image and video-based feedback mechanisms for agents. Despite their simplicity, these methods consistently improve performance, with the largest change being an increase in Claude Sonnet 4.5's performance from 33.3% to 47.7%. We release GameDevBench publicly to support further research into agentic game development.
PDF121February 13, 2026