ChatPaper.aiChatPaper

Matrix-Game: Modelo Fundacional Interactivo del Mundo

Matrix-Game: Interactive World Foundation Model

June 23, 2025
Autores: Yifan Zhang, Chunli Peng, Boyang Wang, Puyi Wang, Qingcheng Zhu, Fei Kang, Biao Jiang, Zedong Gao, Eric Li, Yang Liu, Yahui Zhou
cs.AI

Resumen

Presentamos Matrix-Game, un modelo fundacional de mundo interactivo para la generación controlada de mundos de juego. Matrix-Game se entrena mediante un pipeline de dos etapas que primero realiza un preentrenamiento a gran escala sin etiquetas para la comprensión del entorno, seguido de un entrenamiento con etiquetas de acciones para la generación de videos interactivos. Para respaldar esto, hemos creado Matrix-Game-MC, un conjunto de datos integral de Minecraft que comprende más de 2,700 horas de clips de video de juego sin etiquetas y más de 1,000 horas de clips de alta calidad con anotaciones detalladas de acciones de teclado y mouse. Nuestro modelo adopta un paradigma de generación controlada de imagen a mundo, condicionado por una imagen de referencia, contexto de movimiento y acciones del usuario. Con más de 17 mil millones de parámetros, Matrix-Game permite un control preciso sobre las acciones de los personajes y los movimientos de la cámara, manteniendo una alta calidad visual y coherencia temporal. Para evaluar el rendimiento, desarrollamos GameWorld Score, un benchmark unificado que mide la calidad visual, la calidad temporal, la controlabilidad de las acciones y la comprensión de las reglas físicas en la generación de mundos de Minecraft. Experimentos extensivos muestran que Matrix-Game supera consistentemente a los modelos anteriores de mundos de Minecraft de código abierto (incluyendo Oasis y MineWorld) en todas las métricas, con mejoras particularmente fuertes en controlabilidad y consistencia física. Evaluaciones humanas doble ciego confirman además la superioridad de Matrix-Game, destacando su capacidad para generar videos perceptualmente realistas y precisamente controlables en diversos escenarios de juego. Para facilitar futuras investigaciones sobre la generación interactiva de imagen a mundo, abriremos el código de los pesos del modelo Matrix-Game y el benchmark GameWorld Score en https://github.com/SkyworkAI/Matrix-Game.
English
We introduce Matrix-Game, an interactive world foundation model for controllable game world generation. Matrix-Game is trained using a two-stage pipeline that first performs large-scale unlabeled pretraining for environment understanding, followed by action-labeled training for interactive video generation. To support this, we curate Matrix-Game-MC, a comprehensive Minecraft dataset comprising over 2,700 hours of unlabeled gameplay video clips and over 1,000 hours of high-quality labeled clips with fine-grained keyboard and mouse action annotations. Our model adopts a controllable image-to-world generation paradigm, conditioned on a reference image, motion context, and user actions. With over 17 billion parameters, Matrix-Game enables precise control over character actions and camera movements, while maintaining high visual quality and temporal coherence. To evaluate performance, we develop GameWorld Score, a unified benchmark measuring visual quality, temporal quality, action controllability, and physical rule understanding for Minecraft world generation. Extensive experiments show that Matrix-Game consistently outperforms prior open-source Minecraft world models (including Oasis and MineWorld) across all metrics, with particularly strong gains in controllability and physical consistency. Double-blind human evaluations further confirm the superiority of Matrix-Game, highlighting its ability to generate perceptually realistic and precisely controllable videos across diverse game scenarios. To facilitate future research on interactive image-to-world generation, we will open-source the Matrix-Game model weights and the GameWorld Score benchmark at https://github.com/SkyworkAI/Matrix-Game.
PDF372June 25, 2025