ChatPaper.aiChatPaper

Matrix-Game: Interactief Wereld Fundament Model

Matrix-Game: Interactive World Foundation Model

June 23, 2025
Auteurs: Yifan Zhang, Chunli Peng, Boyang Wang, Puyi Wang, Qingcheng Zhu, Fei Kang, Biao Jiang, Zedong Gao, Eric Li, Yang Liu, Yahui Zhou
cs.AI

Samenvatting

We introduceren Matrix-Game, een interactief wereldmodel voor het gecontroleerd genereren van gamewerelden. Matrix-Game wordt getraind via een tweestappenpijplijn die eerst grootschalige, ongelabelde voorpretraining uitvoert voor omgevingsbegrip, gevolgd door actie-gelabelde training voor het genereren van interactieve video’s. Om dit te ondersteunen, hebben we Matrix-Game-MC samengesteld, een uitgebreide Minecraft-dataset bestaande uit meer dan 2.700 uur aan ongelabelde gameplay-videoclips en meer dan 1.000 uur aan hoogwaardige gelabelde clips met gedetailleerde toetsenbord- en muisactieannotaties. Ons model hanteert een gecontroleerd beeld-naar-wereld-generatieparadigma, gebaseerd op een referentiebeeld, bewegingscontext en gebruikersacties. Met meer dan 17 miljard parameters maakt Matrix-Game nauwkeurige controle over karakteracties en camerabewegingen mogelijk, terwijl het hoge visuele kwaliteit en temporele samenhang behoudt. Om de prestaties te evalueren, ontwikkelen we GameWorld Score, een uniforme benchmark die visuele kwaliteit, temporele kwaliteit, actiecontroleerbaarheid en begrip van fysieke regels meet voor Minecraft-wereldgeneratie. Uitgebreide experimenten tonen aan dat Matrix-Game consistent beter presteert dan eerdere open-source Minecraft-wereldmodellen (waaronder Oasis en MineWorld) op alle metrieken, met name sterke verbeteringen in controleerbaarheid en fysieke consistentie. Dubbelblinde menselijke evaluaties bevestigen verder de superioriteit van Matrix-Game, waarbij het vermogen wordt benadrukt om perceptueel realistische en nauwkeurig controleerbare video’s te genereren in diverse game-scenario’s. Om toekomstig onderzoek naar interactieve beeld-naar-wereldgeneratie te faciliteren, zullen we de Matrix-Game-modelgewichten en de GameWorld Score-benchmark openbaar maken op https://github.com/SkyworkAI/Matrix-Game.
English
We introduce Matrix-Game, an interactive world foundation model for controllable game world generation. Matrix-Game is trained using a two-stage pipeline that first performs large-scale unlabeled pretraining for environment understanding, followed by action-labeled training for interactive video generation. To support this, we curate Matrix-Game-MC, a comprehensive Minecraft dataset comprising over 2,700 hours of unlabeled gameplay video clips and over 1,000 hours of high-quality labeled clips with fine-grained keyboard and mouse action annotations. Our model adopts a controllable image-to-world generation paradigm, conditioned on a reference image, motion context, and user actions. With over 17 billion parameters, Matrix-Game enables precise control over character actions and camera movements, while maintaining high visual quality and temporal coherence. To evaluate performance, we develop GameWorld Score, a unified benchmark measuring visual quality, temporal quality, action controllability, and physical rule understanding for Minecraft world generation. Extensive experiments show that Matrix-Game consistently outperforms prior open-source Minecraft world models (including Oasis and MineWorld) across all metrics, with particularly strong gains in controllability and physical consistency. Double-blind human evaluations further confirm the superiority of Matrix-Game, highlighting its ability to generate perceptually realistic and precisely controllable videos across diverse game scenarios. To facilitate future research on interactive image-to-world generation, we will open-source the Matrix-Game model weights and the GameWorld Score benchmark at https://github.com/SkyworkAI/Matrix-Game.
PDF602June 25, 2025