Matrix-Game: Interactief Wereld Fundament Model
Matrix-Game: Interactive World Foundation Model
June 23, 2025
Auteurs: Yifan Zhang, Chunli Peng, Boyang Wang, Puyi Wang, Qingcheng Zhu, Fei Kang, Biao Jiang, Zedong Gao, Eric Li, Yang Liu, Yahui Zhou
cs.AI
Samenvatting
We introduceren Matrix-Game, een interactief wereldmodel voor het gecontroleerd genereren van gamewerelden. Matrix-Game wordt getraind via een tweestappenpijplijn die eerst grootschalige, ongelabelde voorpretraining uitvoert voor omgevingsbegrip, gevolgd door actie-gelabelde training voor het genereren van interactieve video’s. Om dit te ondersteunen, hebben we Matrix-Game-MC samengesteld, een uitgebreide Minecraft-dataset bestaande uit meer dan 2.700 uur aan ongelabelde gameplay-videoclips en meer dan 1.000 uur aan hoogwaardige gelabelde clips met gedetailleerde toetsenbord- en muisactieannotaties. Ons model hanteert een gecontroleerd beeld-naar-wereld-generatieparadigma, gebaseerd op een referentiebeeld, bewegingscontext en gebruikersacties. Met meer dan 17 miljard parameters maakt Matrix-Game nauwkeurige controle over karakteracties en camerabewegingen mogelijk, terwijl het hoge visuele kwaliteit en temporele samenhang behoudt. Om de prestaties te evalueren, ontwikkelen we GameWorld Score, een uniforme benchmark die visuele kwaliteit, temporele kwaliteit, actiecontroleerbaarheid en begrip van fysieke regels meet voor Minecraft-wereldgeneratie. Uitgebreide experimenten tonen aan dat Matrix-Game consistent beter presteert dan eerdere open-source Minecraft-wereldmodellen (waaronder Oasis en MineWorld) op alle metrieken, met name sterke verbeteringen in controleerbaarheid en fysieke consistentie. Dubbelblinde menselijke evaluaties bevestigen verder de superioriteit van Matrix-Game, waarbij het vermogen wordt benadrukt om perceptueel realistische en nauwkeurig controleerbare video’s te genereren in diverse game-scenario’s. Om toekomstig onderzoek naar interactieve beeld-naar-wereldgeneratie te faciliteren, zullen we de Matrix-Game-modelgewichten en de GameWorld Score-benchmark openbaar maken op https://github.com/SkyworkAI/Matrix-Game.
English
We introduce Matrix-Game, an interactive world foundation model for
controllable game world generation. Matrix-Game is trained using a two-stage
pipeline that first performs large-scale unlabeled pretraining for environment
understanding, followed by action-labeled training for interactive video
generation. To support this, we curate Matrix-Game-MC, a comprehensive
Minecraft dataset comprising over 2,700 hours of unlabeled gameplay video clips
and over 1,000 hours of high-quality labeled clips with fine-grained keyboard
and mouse action annotations. Our model adopts a controllable image-to-world
generation paradigm, conditioned on a reference image, motion context, and user
actions. With over 17 billion parameters, Matrix-Game enables precise control
over character actions and camera movements, while maintaining high visual
quality and temporal coherence. To evaluate performance, we develop GameWorld
Score, a unified benchmark measuring visual quality, temporal quality, action
controllability, and physical rule understanding for Minecraft world
generation. Extensive experiments show that Matrix-Game consistently
outperforms prior open-source Minecraft world models (including Oasis and
MineWorld) across all metrics, with particularly strong gains in
controllability and physical consistency. Double-blind human evaluations
further confirm the superiority of Matrix-Game, highlighting its ability to
generate perceptually realistic and precisely controllable videos across
diverse game scenarios. To facilitate future research on interactive
image-to-world generation, we will open-source the Matrix-Game model weights
and the GameWorld Score benchmark at https://github.com/SkyworkAI/Matrix-Game.