ChatPaper.aiChatPaper

GameCraft-Bench: Могут ли агенты создавать играбельные игры от начала до конца в реальном игровом движке?

GameCraft-Bench: Can Agents Build Playable Games End-to-End in a Real Game Engine?

June 16, 2026
Авторы: Tongxu Luo, Rongsheng Wang, Jiaxi Bi, Chenming Xu, Zhengyang Tang, Jianlong Chen, Juhao Liang, Ke Ji, Shuqi Guo, Yuhao Du, Fan Bu, Wenyu Du, Xiaotong Zhang, Kyle Li, Shaobo Wang, Linfeng Zhang, Yuxuan Liu, Xin Lai, Chenxin Li, Yiduo Guo, Zhexin Zhang, Xinyuan Wang, Tianyi Bai, Ziniu Li, Benyou Wang
cs.AI

Аннотация

Генерация игр представляет собой новое приложение агентов кодирования, требующее от моделей преобразования спецификаций на естественном языке в играбельные интерактивные системы. В отличие от традиционных задач кодирования, генерация игр происходит в рамках игрового движка, где скрипты, сцены, ассеты, рендеринг и взаимодействия во время выполнения должны совместно обеспечивать связный игровой процесс. Мы формализуем сквозную генерацию игр как задачу создания полного игрового артефакта, реализующего спецификацию через наблюдаемое взаимодействие игрока с игрой в целевой среде. Мы утверждаем, что оценка данного подхода требует выполнения трёх критериев: привязка к движку, полнота артефакта и интерактивная верификация. Мы предлагаем систему оценки на основе взаимодействия, которая анализирует исполняемый игровой процесс посредством повторно воспроизводимых демонстраций и многомодальной оценки с руководством по рубрикам. Эта система реализована в бенчмарке GameCraft-Bench, включающем 140 задач на движке Godot из 15 семейств игр. Оценки передовых агентов кодирования показывают, что сквозная генерация игр остаётся крайне сложной задачей: самый сильный агент достигает лишь 41,46%, а большинство агентов набирают ниже 40%. Дальнейший анализ показывает, что, хотя агенты часто реализуют узнаваемые механики, они испытывают трудности с созданием полноценных игр, содержащих достаточный контент, функциональную визуальную обратную связь и связное представление. Демонстрации, код и данные доступны по адресу: https://tongxuluo.github.io/gamecraft-bench-website.
English
Game generation is an emerging application of coding agents, requiring models to transform natural-language specifications into playable interactive systems. Unlike traditional coding tasks, game generation takes place within a game engine, where scripts, scenes, assets, rendering, and runtime interactions must jointly produce coherent gameplay. We formalize end-to-end game generation as the problem of producing a complete game artifact that realizes a specification through observable player-game interaction in a target environment. We argue that evaluating this setting requires three desiderata: Engine Grounding, Artifact Completeness, and Interactive Verification. We propose an interaction-grounded evaluation framework that assesses executable gameplay through replayed demonstrations and rubric-guided multimodal judging. We instantiate this framework as GameCraft-Bench, a benchmark comprising 140 Godot tasks across 15 game families. Evaluations of frontier coding agents show that end-to-end game generation remains highly challenging: the strongest agent achieves only 41.46%, and most agents score below 40%. Further analysis reveals that while agents often implement recognizable mechanics, they struggle to deliver complete games with sufficient content, functional visual feedback, and coherent presentation. See https://tongxuluo.github.io/gamecraft-bench-website for demos, code, and data.