GameCraft-Bench : Les agents peuvent-ils construire des jeux jouables de bout en bout dans un véritable moteur de jeu ?

Résumé

La génération de jeux est une application émergente des agents de codage, exigeant que les modèles transforment des spécifications en langage naturel en systèmes interactifs jouables. Contrairement aux tâches de codage traditionnelles, la génération de jeux se déroule au sein d'un moteur de jeu, où scripts, scènes, assets, rendu et interactions d'exécution doivent conjointement produire un gameplay cohérent. Nous formalisons la génération de jeux de bout en bout comme le problème de production d'un artéfact de jeu complet qui réalise une spécification via des interactions observables joueur-jeu dans un environnement cible. Nous soutenons que l'évaluation de ce cadre nécessite trois desiderata : ancrage moteur (Engine Grounding), complétude de l'artéfact (Artifact Completeness) et vérification interactive (Interactive Verification). Nous proposons un cadre d'évaluation ancré dans l'interaction qui évalue le gameplay exécutable via des démonstrations rejouées et un jugement multimodal guidé par une rubrique. Nous instancions ce cadre sous la forme de GameCraft-Bench, un banc d'essai comprenant 140 tâches Godot réparties dans 15 familles de jeux. Les évaluations des agents de codage de pointe montrent que la génération de jeux de bout en bout reste très difficile : l'agent le plus performant n'atteint que 41,46 % et la plupart des agents obtiennent un score inférieur à 40 %. Des analyses supplémentaires révèlent que si les agents mettent souvent en œuvre des mécanismes reconnaissables, ils peinent à fournir des jeux complets avec un contenu suffisant, un retour visuel fonctionnel et une présentation cohérente. Voir https://tongxuluo.github.io/gamecraft-bench-website pour les démos, le code et les données.

English

Game generation is an emerging application of coding agents, requiring models to transform natural-language specifications into playable interactive systems. Unlike traditional coding tasks, game generation takes place within a game engine, where scripts, scenes, assets, rendering, and runtime interactions must jointly produce coherent gameplay. We formalize end-to-end game generation as the problem of producing a complete game artifact that realizes a specification through observable player-game interaction in a target environment. We argue that evaluating this setting requires three desiderata: Engine Grounding, Artifact Completeness, and Interactive Verification. We propose an interaction-grounded evaluation framework that assesses executable gameplay through replayed demonstrations and rubric-guided multimodal judging. We instantiate this framework as GameCraft-Bench, a benchmark comprising 140 Godot tasks across 15 game families. Evaluations of frontier coding agents show that end-to-end game generation remains highly challenging: the strongest agent achieves only 41.46%, and most agents score below 40%. Further analysis reveals that while agents often implement recognizable mechanics, they struggle to deliver complete games with sufficient content, functional visual feedback, and coherent presentation. See https://tongxuluo.github.io/gamecraft-bench-website for demos, code, and data.