GameCraft-Bench: Será que Agentes Conseguem Criar Jogos Jogáveis de Ponta a Ponta num Motor de Jogo Real?

Resumo

A geração de jogos é uma aplicação emergente de agentes de codificação, que exige que os modelos transformem especificações em linguagem natural em sistemas interativos jogáveis. Diferentemente das tarefas tradicionais de codificação, a geração de jogos ocorre dentro de um motor de jogo, onde scripts, cenas, ativos, renderização e interações em tempo de execução devem, em conjunto, produzir uma jogabilidade coerente. Formalizamos a geração de jogos de ponta a ponta como o problema de produzir um artefato de jogo completo que realize uma especificação por meio da interação observável entre jogador e jogo em um ambiente-alvo. Argumentamos que a avaliação deste cenário requer três desideratos: Fundamentação no Motor, Completude do Artefato e Verificação Interativa. Propomos uma estrutura de avaliação fundamentada na interação que avalia executáveis de jogos por meio de demonstrações reproduzidas e julgamento multimodal orientado por rubricas. Instanciamos essa estrutura como GameCraft-Bench, um benchmark composto por 140 tarefas Godot em 15 famílias de jogos. Avaliações de agentes de codificação de ponta mostram que a geração de jogos de ponta a ponta permanece altamente desafiadora: o agente mais forte atinge apenas 41,46%, e a maioria dos agentes pontua abaixo de 40%. Análises adicionais revelam que, embora os agentes frequentemente implementem mecânicas reconhecíveis, eles têm dificuldade em entregar jogos completos com conteúdo suficiente, feedback visual funcional e apresentação coerente. Consulte https://tongxuluo.github.io/gamecraft-bench-website para demonstrações, código e dados.

English

Game generation is an emerging application of coding agents, requiring models to transform natural-language specifications into playable interactive systems. Unlike traditional coding tasks, game generation takes place within a game engine, where scripts, scenes, assets, rendering, and runtime interactions must jointly produce coherent gameplay. We formalize end-to-end game generation as the problem of producing a complete game artifact that realizes a specification through observable player-game interaction in a target environment. We argue that evaluating this setting requires three desiderata: Engine Grounding, Artifact Completeness, and Interactive Verification. We propose an interaction-grounded evaluation framework that assesses executable gameplay through replayed demonstrations and rubric-guided multimodal judging. We instantiate this framework as GameCraft-Bench, a benchmark comprising 140 Godot tasks across 15 game families. Evaluations of frontier coding agents show that end-to-end game generation remains highly challenging: the strongest agent achieves only 41.46%, and most agents score below 40%. Further analysis reveals that while agents often implement recognizable mechanics, they struggle to deliver complete games with sufficient content, functional visual feedback, and coherent presentation. See https://tongxuluo.github.io/gamecraft-bench-website for demos, code, and data.