GameCraft-Bench: Kunnen agenten speelbare spellen end-to-end bouwen in een echte game-engine?
GameCraft-Bench: Can Agents Build Playable Games End-to-End in a Real Game Engine?
June 16, 2026
Auteurs: Tongxu Luo, Rongsheng Wang, Jiaxi Bi, Chenming Xu, Zhengyang Tang, Jianlong Chen, Juhao Liang, Ke Ji, Shuqi Guo, Yuhao Du, Fan Bu, Wenyu Du, Xiaotong Zhang, Kyle Li, Shaobo Wang, Linfeng Zhang, Yuxuan Liu, Xin Lai, Chenxin Li, Yiduo Guo, Zhexin Zhang, Xinyuan Wang, Tianyi Bai, Ziniu Li, Benyou Wang
cs.AI
Samenvatting
Spelgeneratie is een opkomende toepassing van codeeragenten, waarbij modellen natuurlijke-taalspecificaties moeten omzetten in speelbare interactieve systemen. In tegenstelling tot traditionele codeertaken vindt spelgeneratie plaats in een spelengine, waar scripts, scènes, assets, rendering en runtime-interacties gezamenlijk samenhangende gameplay moeten opleveren. We formaliseren end-to-end spelgeneratie als het probleem van het produceren van een compleet spelartefact dat een specificatie realiseert via waarneembare speler-spelinteractie in een doelomgeving. We stellen dat het evalueren van deze setting drie desiderata vereist: Engine-verankering, Artefactvolledigheid en Interactieve verificatie. We stellen een interactiegebaseerd evaluatiekader voor dat uitvoerbare gameplay beoordeelt via herhaalde demonstraties en rubricgestuurde multimodale beoordeling. We implementeren dit kader als GameCraft-Bench, een benchmark bestaande uit 140 Godot-taken in 15 spelfamilies. Evaluaties van geavanceerde codeeragenten tonen aan dat end-to-end spelgeneratie zeer uitdagend blijft: de sterkste agent haalt slechts 41,46% en de meeste agenten scoren onder 40%. Verdere analyse onthult dat agenten vaak herkenbare mechanics implementeren, maar moeite hebben met het leveren van volledige spellen met voldoende inhoud, functionele visuele feedback en samenhangende presentatie. Zie https://tongxuluo.github.io/gamecraft-bench-website voor demo's, code en data.
English
Game generation is an emerging application of coding agents, requiring models to transform natural-language specifications into playable interactive systems. Unlike traditional coding tasks, game generation takes place within a game engine, where scripts, scenes, assets, rendering, and runtime interactions must jointly produce coherent gameplay. We formalize end-to-end game generation as the problem of producing a complete game artifact that realizes a specification through observable player-game interaction in a target environment. We argue that evaluating this setting requires three desiderata: Engine Grounding, Artifact Completeness, and Interactive Verification. We propose an interaction-grounded evaluation framework that assesses executable gameplay through replayed demonstrations and rubric-guided multimodal judging. We instantiate this framework as GameCraft-Bench, a benchmark comprising 140 Godot tasks across 15 game families. Evaluations of frontier coding agents show that end-to-end game generation remains highly challenging: the strongest agent achieves only 41.46%, and most agents score below 40%. Further analysis reveals that while agents often implement recognizable mechanics, they struggle to deliver complete games with sufficient content, functional visual feedback, and coherent presentation. See https://tongxuluo.github.io/gamecraft-bench-website for demos, code, and data.