GameCraft-Bench: Können Agenten End-to-End spielbare Spiele in einer echten Spiel-Engine erstellen?

Zusammenfassung

Spielgenerierung ist eine aufstrebende Anwendung von Codierungsagenten, die von Modellen verlangt, natürlichsprachliche Spezifikationen in spielbare interaktive Systeme zu überführen. Im Gegensatz zu traditionellen Codierungsaufgaben findet die Spielgenerierung innerhalb einer Spiel-Engine statt, wobei Skripte, Szenen, Assets, Rendering und Laufzeitinteraktionen gemeinsam ein kohärentes Spielerlebnis erzeugen müssen. Wir formalisieren die End-to-End-Spielgenerierung als das Problem, ein vollständiges Spielartefakt zu erstellen, das eine Spezifikation durch beobachtbare Spieler-Spiel-Interaktion in einer Zielumgebung realisiert. Wir argumentieren, dass die Bewertung dieses Szenarios drei Anforderungen erfordert: Engine-Verankerung, Artefaktvollständigkeit und interaktive Verifizierung. Wir schlagen einen interaktionsbasierten Bewertungsrahmen vor, der ausführbare Spielabläufe durch wiederholte Demonstrationen und rubrikengesteuerte multimodale Bewertung beurteilt. Diesen Rahmen setzen wir als GameCraft-Bench um, einen Benchmark, der 140 Godot-Aufgaben aus 15 Spielefamilien umfasst. Evaluierungen führender Codierungsagenten zeigen, dass die End-to-End-Spielgenerierung nach wie vor äußerst anspruchsvoll ist: Der stärkste Agent erreicht nur 41,46 %, und die meisten Agenten liegen unter 40 %. Die weitere Analyse zeigt, dass Agenten zwar oft erkennbare Mechaniken implementieren, aber Schwierigkeiten haben, vollständige Spiele mit ausreichendem Inhalt, funktionalem visuellem Feedback und kohärenter Präsentation zu liefern. Siehe https://tongxuluo.github.io/gamecraft-bench-website für Demos, Code und Daten.

English

Game generation is an emerging application of coding agents, requiring models to transform natural-language specifications into playable interactive systems. Unlike traditional coding tasks, game generation takes place within a game engine, where scripts, scenes, assets, rendering, and runtime interactions must jointly produce coherent gameplay. We formalize end-to-end game generation as the problem of producing a complete game artifact that realizes a specification through observable player-game interaction in a target environment. We argue that evaluating this setting requires three desiderata: Engine Grounding, Artifact Completeness, and Interactive Verification. We propose an interaction-grounded evaluation framework that assesses executable gameplay through replayed demonstrations and rubric-guided multimodal judging. We instantiate this framework as GameCraft-Bench, a benchmark comprising 140 Godot tasks across 15 game families. Evaluations of frontier coding agents show that end-to-end game generation remains highly challenging: the strongest agent achieves only 41.46%, and most agents score below 40%. Further analysis reveals that while agents often implement recognizable mechanics, they struggle to deliver complete games with sufficient content, functional visual feedback, and coherent presentation. See https://tongxuluo.github.io/gamecraft-bench-website for demos, code, and data.