GameCraft-Bench: Могут ли агенты создавать играбельные игры от начала до конца в реальном игровом движке?

Аннотация

Генерация игр представляет собой новое приложение агентов кодирования, требующее от моделей преобразования спецификаций на естественном языке в играбельные интерактивные системы. В отличие от традиционных задач кодирования, генерация игр происходит в рамках игрового движка, где скрипты, сцены, ассеты, рендеринг и взаимодействия во время выполнения должны совместно обеспечивать связный игровой процесс. Мы формализуем сквозную генерацию игр как задачу создания полного игрового артефакта, реализующего спецификацию через наблюдаемое взаимодействие игрока с игрой в целевой среде. Мы утверждаем, что оценка данного подхода требует выполнения трёх критериев: привязка к движку, полнота артефакта и интерактивная верификация. Мы предлагаем систему оценки на основе взаимодействия, которая анализирует исполняемый игровой процесс посредством повторно воспроизводимых демонстраций и многомодальной оценки с руководством по рубрикам. Эта система реализована в бенчмарке GameCraft-Bench, включающем 140 задач на движке Godot из 15 семейств игр. Оценки передовых агентов кодирования показывают, что сквозная генерация игр остаётся крайне сложной задачей: самый сильный агент достигает лишь 41,46%, а большинство агентов набирают ниже 40%. Дальнейший анализ показывает, что, хотя агенты часто реализуют узнаваемые механики, они испытывают трудности с созданием полноценных игр, содержащих достаточный контент, функциональную визуальную обратную связь и связное представление. Демонстрации, код и данные доступны по адресу: https://tongxuluo.github.io/gamecraft-bench-website.

English

Game generation is an emerging application of coding agents, requiring models to transform natural-language specifications into playable interactive systems. Unlike traditional coding tasks, game generation takes place within a game engine, where scripts, scenes, assets, rendering, and runtime interactions must jointly produce coherent gameplay. We formalize end-to-end game generation as the problem of producing a complete game artifact that realizes a specification through observable player-game interaction in a target environment. We argue that evaluating this setting requires three desiderata: Engine Grounding, Artifact Completeness, and Interactive Verification. We propose an interaction-grounded evaluation framework that assesses executable gameplay through replayed demonstrations and rubric-guided multimodal judging. We instantiate this framework as GameCraft-Bench, a benchmark comprising 140 Godot tasks across 15 game families. Evaluations of frontier coding agents show that end-to-end game generation remains highly challenging: the strongest agent achieves only 41.46%, and most agents score below 40%. Further analysis reveals that while agents often implement recognizable mechanics, they struggle to deliver complete games with sufficient content, functional visual feedback, and coherent presentation. See https://tongxuluo.github.io/gamecraft-bench-website for demos, code, and data.