Matrix-Game: Modelo Fundacional Interactivo del Mundo
Matrix-Game: Interactive World Foundation Model
June 23, 2025
Autores: Yifan Zhang, Chunli Peng, Boyang Wang, Puyi Wang, Qingcheng Zhu, Fei Kang, Biao Jiang, Zedong Gao, Eric Li, Yang Liu, Yahui Zhou
cs.AI
Resumen
Presentamos Matrix-Game, un modelo fundacional de mundo interactivo para la generación controlada de mundos de juego. Matrix-Game se entrena mediante un pipeline de dos etapas que primero realiza un preentrenamiento a gran escala sin etiquetas para la comprensión del entorno, seguido de un entrenamiento con etiquetas de acciones para la generación de videos interactivos. Para respaldar esto, hemos creado Matrix-Game-MC, un conjunto de datos integral de Minecraft que comprende más de 2,700 horas de clips de video de juego sin etiquetas y más de 1,000 horas de clips de alta calidad con anotaciones detalladas de acciones de teclado y mouse. Nuestro modelo adopta un paradigma de generación controlada de imagen a mundo, condicionado por una imagen de referencia, contexto de movimiento y acciones del usuario. Con más de 17 mil millones de parámetros, Matrix-Game permite un control preciso sobre las acciones de los personajes y los movimientos de la cámara, manteniendo una alta calidad visual y coherencia temporal. Para evaluar el rendimiento, desarrollamos GameWorld Score, un benchmark unificado que mide la calidad visual, la calidad temporal, la controlabilidad de las acciones y la comprensión de las reglas físicas en la generación de mundos de Minecraft. Experimentos extensivos muestran que Matrix-Game supera consistentemente a los modelos anteriores de mundos de Minecraft de código abierto (incluyendo Oasis y MineWorld) en todas las métricas, con mejoras particularmente fuertes en controlabilidad y consistencia física. Evaluaciones humanas doble ciego confirman además la superioridad de Matrix-Game, destacando su capacidad para generar videos perceptualmente realistas y precisamente controlables en diversos escenarios de juego. Para facilitar futuras investigaciones sobre la generación interactiva de imagen a mundo, abriremos el código de los pesos del modelo Matrix-Game y el benchmark GameWorld Score en https://github.com/SkyworkAI/Matrix-Game.
English
We introduce Matrix-Game, an interactive world foundation model for
controllable game world generation. Matrix-Game is trained using a two-stage
pipeline that first performs large-scale unlabeled pretraining for environment
understanding, followed by action-labeled training for interactive video
generation. To support this, we curate Matrix-Game-MC, a comprehensive
Minecraft dataset comprising over 2,700 hours of unlabeled gameplay video clips
and over 1,000 hours of high-quality labeled clips with fine-grained keyboard
and mouse action annotations. Our model adopts a controllable image-to-world
generation paradigm, conditioned on a reference image, motion context, and user
actions. With over 17 billion parameters, Matrix-Game enables precise control
over character actions and camera movements, while maintaining high visual
quality and temporal coherence. To evaluate performance, we develop GameWorld
Score, a unified benchmark measuring visual quality, temporal quality, action
controllability, and physical rule understanding for Minecraft world
generation. Extensive experiments show that Matrix-Game consistently
outperforms prior open-source Minecraft world models (including Oasis and
MineWorld) across all metrics, with particularly strong gains in
controllability and physical consistency. Double-blind human evaluations
further confirm the superiority of Matrix-Game, highlighting its ability to
generate perceptually realistic and precisely controllable videos across
diverse game scenarios. To facilitate future research on interactive
image-to-world generation, we will open-source the Matrix-Game model weights
and the GameWorld Score benchmark at https://github.com/SkyworkAI/Matrix-Game.