GameCraft-Bench: Será que Agentes Conseguem Criar Jogos Jogáveis de Ponta a Ponta num Motor de Jogo Real?
GameCraft-Bench: Can Agents Build Playable Games End-to-End in a Real Game Engine?
June 16, 2026
Autores: Tongxu Luo, Rongsheng Wang, Jiaxi Bi, Chenming Xu, Zhengyang Tang, Jianlong Chen, Juhao Liang, Ke Ji, Shuqi Guo, Yuhao Du, Fan Bu, Wenyu Du, Xiaotong Zhang, Kyle Li, Shaobo Wang, Linfeng Zhang, Yuxuan Liu, Xin Lai, Chenxin Li, Yiduo Guo, Zhexin Zhang, Xinyuan Wang, Tianyi Bai, Ziniu Li, Benyou Wang
cs.AI
Resumo
A geração de jogos é uma aplicação emergente de agentes de codificação, que exige que os modelos transformem especificações em linguagem natural em sistemas interativos jogáveis. Diferentemente das tarefas tradicionais de codificação, a geração de jogos ocorre dentro de um motor de jogo, onde scripts, cenas, ativos, renderização e interações em tempo de execução devem, em conjunto, produzir uma jogabilidade coerente. Formalizamos a geração de jogos de ponta a ponta como o problema de produzir um artefato de jogo completo que realize uma especificação por meio da interação observável entre jogador e jogo em um ambiente-alvo. Argumentamos que a avaliação deste cenário requer três desideratos: Fundamentação no Motor, Completude do Artefato e Verificação Interativa. Propomos uma estrutura de avaliação fundamentada na interação que avalia executáveis de jogos por meio de demonstrações reproduzidas e julgamento multimodal orientado por rubricas. Instanciamos essa estrutura como GameCraft-Bench, um benchmark composto por 140 tarefas Godot em 15 famílias de jogos. Avaliações de agentes de codificação de ponta mostram que a geração de jogos de ponta a ponta permanece altamente desafiadora: o agente mais forte atinge apenas 41,46%, e a maioria dos agentes pontua abaixo de 40%. Análises adicionais revelam que, embora os agentes frequentemente implementem mecânicas reconhecíveis, eles têm dificuldade em entregar jogos completos com conteúdo suficiente, feedback visual funcional e apresentação coerente. Consulte https://tongxuluo.github.io/gamecraft-bench-website para demonstrações, código e dados.
English
Game generation is an emerging application of coding agents, requiring models to transform natural-language specifications into playable interactive systems. Unlike traditional coding tasks, game generation takes place within a game engine, where scripts, scenes, assets, rendering, and runtime interactions must jointly produce coherent gameplay. We formalize end-to-end game generation as the problem of producing a complete game artifact that realizes a specification through observable player-game interaction in a target environment. We argue that evaluating this setting requires three desiderata: Engine Grounding, Artifact Completeness, and Interactive Verification. We propose an interaction-grounded evaluation framework that assesses executable gameplay through replayed demonstrations and rubric-guided multimodal judging. We instantiate this framework as GameCraft-Bench, a benchmark comprising 140 Godot tasks across 15 game families. Evaluations of frontier coding agents show that end-to-end game generation remains highly challenging: the strongest agent achieves only 41.46%, and most agents score below 40%. Further analysis reveals that while agents often implement recognizable mechanics, they struggle to deliver complete games with sufficient content, functional visual feedback, and coherent presentation. See https://tongxuluo.github.io/gamecraft-bench-website for demos, code, and data.