GameCraft-Bench: Kunnen agenten speelbare spellen end-to-end bouwen in een echte game-engine?

Samenvatting

Spelgeneratie is een opkomende toepassing van codeeragenten, waarbij modellen natuurlijke-taalspecificaties moeten omzetten in speelbare interactieve systemen. In tegenstelling tot traditionele codeertaken vindt spelgeneratie plaats in een spelengine, waar scripts, scènes, assets, rendering en runtime-interacties gezamenlijk samenhangende gameplay moeten opleveren. We formaliseren end-to-end spelgeneratie als het probleem van het produceren van een compleet spelartefact dat een specificatie realiseert via waarneembare speler-spelinteractie in een doelomgeving. We stellen dat het evalueren van deze setting drie desiderata vereist: Engine-verankering, Artefactvolledigheid en Interactieve verificatie. We stellen een interactiegebaseerd evaluatiekader voor dat uitvoerbare gameplay beoordeelt via herhaalde demonstraties en rubricgestuurde multimodale beoordeling. We implementeren dit kader als GameCraft-Bench, een benchmark bestaande uit 140 Godot-taken in 15 spelfamilies. Evaluaties van geavanceerde codeeragenten tonen aan dat end-to-end spelgeneratie zeer uitdagend blijft: de sterkste agent haalt slechts 41,46% en de meeste agenten scoren onder 40%. Verdere analyse onthult dat agenten vaak herkenbare mechanics implementeren, maar moeite hebben met het leveren van volledige spellen met voldoende inhoud, functionele visuele feedback en samenhangende presentatie. Zie https://tongxuluo.github.io/gamecraft-bench-website voor demo's, code en data.

English

Game generation is an emerging application of coding agents, requiring models to transform natural-language specifications into playable interactive systems. Unlike traditional coding tasks, game generation takes place within a game engine, where scripts, scenes, assets, rendering, and runtime interactions must jointly produce coherent gameplay. We formalize end-to-end game generation as the problem of producing a complete game artifact that realizes a specification through observable player-game interaction in a target environment. We argue that evaluating this setting requires three desiderata: Engine Grounding, Artifact Completeness, and Interactive Verification. We propose an interaction-grounded evaluation framework that assesses executable gameplay through replayed demonstrations and rubric-guided multimodal judging. We instantiate this framework as GameCraft-Bench, a benchmark comprising 140 Godot tasks across 15 game families. Evaluations of frontier coding agents show that end-to-end game generation remains highly challenging: the strongest agent achieves only 41.46%, and most agents score below 40%. Further analysis reveals that while agents often implement recognizable mechanics, they struggle to deliver complete games with sufficient content, functional visual feedback, and coherent presentation. See https://tongxuluo.github.io/gamecraft-bench-website for demos, code, and data.