Matrix-Game: Modello Fondamentale di Mondo Interattivo
Matrix-Game: Interactive World Foundation Model
June 23, 2025
Autori: Yifan Zhang, Chunli Peng, Boyang Wang, Puyi Wang, Qingcheng Zhu, Fei Kang, Biao Jiang, Zedong Gao, Eric Li, Yang Liu, Yahui Zhou
cs.AI
Abstract
Presentiamo Matrix-Game, un modello fondazionale di mondo interattivo per la generazione controllata di mondi di gioco. Matrix-Game è addestrato utilizzando una pipeline a due stadi che esegue prima un pre-addestramento su larga scala senza etichette per la comprensione dell'ambiente, seguito da un addestramento con azioni etichettate per la generazione di video interattivi. A supporto di ciò, abbiamo curato Matrix-Game-MC, un dataset completo di Minecraft che comprende oltre 2.700 ore di clip video di gameplay senza etichette e oltre 1.000 ore di clip di alta qualità con annotazioni dettagliate delle azioni da tastiera e mouse. Il nostro modello adotta un paradigma di generazione controllata da immagine a mondo, condizionato da un'immagine di riferimento, un contesto di movimento e le azioni dell'utente. Con oltre 17 miliardi di parametri, Matrix-Game consente un controllo preciso sulle azioni del personaggio e sui movimenti della telecamera, mantenendo un'elevata qualità visiva e coerenza temporale. Per valutare le prestazioni, abbiamo sviluppato GameWorld Score, un benchmark unificato che misura la qualità visiva, la qualità temporale, la controllabilità delle azioni e la comprensione delle regole fisiche per la generazione di mondi in Minecraft. Esperimenti estensivi dimostrano che Matrix-Game supera costantemente i precedenti modelli open-source di mondi Minecraft (inclusi Oasis e MineWorld) in tutte le metriche, con miglioramenti particolarmente significativi nella controllabilità e nella coerenza fisica. Valutazioni umane in doppio cieco confermano ulteriormente la superiorità di Matrix-Game, evidenziando la sua capacità di generare video percettivamente realistici e precisamente controllabili in diversi scenari di gioco. Per facilitare la ricerca futura sulla generazione interattiva da immagine a mondo, renderemo open-source i pesi del modello Matrix-Game e il benchmark GameWorld Score all'indirizzo https://github.com/SkyworkAI/Matrix-Game.
English
We introduce Matrix-Game, an interactive world foundation model for
controllable game world generation. Matrix-Game is trained using a two-stage
pipeline that first performs large-scale unlabeled pretraining for environment
understanding, followed by action-labeled training for interactive video
generation. To support this, we curate Matrix-Game-MC, a comprehensive
Minecraft dataset comprising over 2,700 hours of unlabeled gameplay video clips
and over 1,000 hours of high-quality labeled clips with fine-grained keyboard
and mouse action annotations. Our model adopts a controllable image-to-world
generation paradigm, conditioned on a reference image, motion context, and user
actions. With over 17 billion parameters, Matrix-Game enables precise control
over character actions and camera movements, while maintaining high visual
quality and temporal coherence. To evaluate performance, we develop GameWorld
Score, a unified benchmark measuring visual quality, temporal quality, action
controllability, and physical rule understanding for Minecraft world
generation. Extensive experiments show that Matrix-Game consistently
outperforms prior open-source Minecraft world models (including Oasis and
MineWorld) across all metrics, with particularly strong gains in
controllability and physical consistency. Double-blind human evaluations
further confirm the superiority of Matrix-Game, highlighting its ability to
generate perceptually realistic and precisely controllable videos across
diverse game scenarios. To facilitate future research on interactive
image-to-world generation, we will open-source the Matrix-Game model weights
and the GameWorld Score benchmark at https://github.com/SkyworkAI/Matrix-Game.