Matrix-Game: Интерактивная Модель Основ Мира
Matrix-Game: Interactive World Foundation Model
June 23, 2025
Авторы: Yifan Zhang, Chunli Peng, Boyang Wang, Puyi Wang, Qingcheng Zhu, Fei Kang, Biao Jiang, Zedong Gao, Eric Li, Yang Liu, Yahui Zhou
cs.AI
Аннотация
Мы представляем Matrix-Game — интерактивную модель-основу для генерации управляемых игровых миров. Matrix-Game обучается с использованием двухэтапного подхода: сначала выполняется масштабное предварительное обучение без меток для понимания окружения, за которым следует обучение с метками действий для генерации интерактивного видео. Для поддержки этого процесса мы создали Matrix-Game-MC — всеобъемлющий набор данных из Minecraft, включающий более 2700 часов неразмеченных видеоклипов игрового процесса и более 1000 часов высококачественных размеченных клипов с детализированными аннотациями действий клавиатуры и мыши. Наша модель использует управляемую парадигму генерации "изображение-в-мир", учитывая эталонное изображение, контекст движения и действия пользователя. Благодаря более чем 17 миллиардам параметров, Matrix-Game обеспечивает точный контроль над действиями персонажа и движениями камеры, сохраняя при этом высокое визуальное качество и временную согласованность. Для оценки производительности мы разработали GameWorld Score — унифицированный бенчмарк, измеряющий визуальное качество, временное качество, управляемость действий и понимание физических правил для генерации миров в Minecraft. Многочисленные эксперименты показывают, что Matrix-Game стабильно превосходит предыдущие открытые модели генерации миров в Minecraft (включая Oasis и MineWorld) по всем метрикам, с особенно значительным улучшением в управляемости и физической согласованности. Двойные слепые оценки людьми дополнительно подтверждают превосходство Matrix-Game, подчеркивая её способность генерировать воспринимаемо реалистичные и точно управляемые видео в разнообразных игровых сценариях. Для содействия будущим исследованиям в области интерактивной генерации "изображение-в-мир" мы опубликуем веса модели Matrix-Game и бенчмарк GameWorld Score на https://github.com/SkyworkAI/Matrix-Game.
English
We introduce Matrix-Game, an interactive world foundation model for
controllable game world generation. Matrix-Game is trained using a two-stage
pipeline that first performs large-scale unlabeled pretraining for environment
understanding, followed by action-labeled training for interactive video
generation. To support this, we curate Matrix-Game-MC, a comprehensive
Minecraft dataset comprising over 2,700 hours of unlabeled gameplay video clips
and over 1,000 hours of high-quality labeled clips with fine-grained keyboard
and mouse action annotations. Our model adopts a controllable image-to-world
generation paradigm, conditioned on a reference image, motion context, and user
actions. With over 17 billion parameters, Matrix-Game enables precise control
over character actions and camera movements, while maintaining high visual
quality and temporal coherence. To evaluate performance, we develop GameWorld
Score, a unified benchmark measuring visual quality, temporal quality, action
controllability, and physical rule understanding for Minecraft world
generation. Extensive experiments show that Matrix-Game consistently
outperforms prior open-source Minecraft world models (including Oasis and
MineWorld) across all metrics, with particularly strong gains in
controllability and physical consistency. Double-blind human evaluations
further confirm the superiority of Matrix-Game, highlighting its ability to
generate perceptually realistic and precisely controllable videos across
diverse game scenarios. To facilitate future research on interactive
image-to-world generation, we will open-source the Matrix-Game model weights
and the GameWorld Score benchmark at https://github.com/SkyworkAI/Matrix-Game.