GameCraft-Bench: ¿Pueden los agentes construir juegos jugables de extremo a extremo en un motor de juego real?

Resumen

La generación de juegos es una aplicación emergente de los agentes de codificación, que requiere que los modelos transformen especificaciones en lenguaje natural en sistemas interactivos jugables. A diferencia de las tareas de codificación tradicionales, la generación de juegos se desarrolla dentro de un motor de juego, donde los scripts, escenas, activos, renderizado e interacciones en tiempo real deben conjuntamente producir una jugabilidad coherente. Formalizamos la generación de juegos de extremo a extremo como el problema de producir un artefacto de juego completo que materialice una especificación a través de la interacción observable jugador-juego en un entorno objetivo. Sostenemos que evaluar este escenario requiere tres desiderata: Fundamentación en el Motor, Completitud del Artefacto y Verificación Interactiva. Proponemos un marco de evaluación basado en la interacción que evalúa el juego ejecutable mediante demostraciones reproducidas y evaluación multimodal guiada por rúbricas. Implementamos este marco como GameCraft-Bench, un banco de pruebas compuesto por 140 tareas de Godot en 15 familias de juegos. Las evaluaciones de agentes de codificación de vanguardia muestran que la generación de juegos de extremo a extremo sigue siendo altamente desafiante: el agente más fuerte alcanza solo el 41,46 %, y la mayoría de los agentes obtienen puntuaciones por debajo del 40 %. Análisis adicionales revelan que, aunque los agentes a menudo implementan mecánicas reconocibles, tienen dificultades para entregar juegos completos con suficiente contenido, retroalimentación visual funcional y una presentación coherente. Consulte https://tongxuluo.github.io/gamecraft-bench-website para ver demostraciones, código y datos.

English

Game generation is an emerging application of coding agents, requiring models to transform natural-language specifications into playable interactive systems. Unlike traditional coding tasks, game generation takes place within a game engine, where scripts, scenes, assets, rendering, and runtime interactions must jointly produce coherent gameplay. We formalize end-to-end game generation as the problem of producing a complete game artifact that realizes a specification through observable player-game interaction in a target environment. We argue that evaluating this setting requires three desiderata: Engine Grounding, Artifact Completeness, and Interactive Verification. We propose an interaction-grounded evaluation framework that assesses executable gameplay through replayed demonstrations and rubric-guided multimodal judging. We instantiate this framework as GameCraft-Bench, a benchmark comprising 140 Godot tasks across 15 game families. Evaluations of frontier coding agents show that end-to-end game generation remains highly challenging: the strongest agent achieves only 41.46%, and most agents score below 40%. Further analysis reveals that while agents often implement recognizable mechanics, they struggle to deliver complete games with sufficient content, functional visual feedback, and coherent presentation. See https://tongxuluo.github.io/gamecraft-bench-website for demos, code, and data.