Matrix-Game : Modèle Fondateur Interactif du Monde
Matrix-Game: Interactive World Foundation Model
June 23, 2025
Auteurs: Yifan Zhang, Chunli Peng, Boyang Wang, Puyi Wang, Qingcheng Zhu, Fei Kang, Biao Jiang, Zedong Gao, Eric Li, Yang Liu, Yahui Zhou
cs.AI
Résumé
Nous présentons Matrix-Game, un modèle de fondation de monde interactif pour la génération contrôlée de mondes de jeu. Matrix-Game est entraîné à l'aide d'un pipeline en deux étapes qui effectue d'abord un pré-entraînement à grande échelle sans étiquettes pour la compréhension de l'environnement, suivi d'un entraînement avec étiquettes d'actions pour la génération de vidéos interactives. Pour soutenir cela, nous avons constitué Matrix-Game-MC, un ensemble de données Minecraft complet comprenant plus de 2 700 heures de clips vidéo de gameplay non étiquetés et plus de 1 000 heures de clips de haute qualité étiquetés avec des annotations fines des actions du clavier et de la souris. Notre modèle adopte un paradigme de génération contrôlée d'image à monde, conditionné par une image de référence, un contexte de mouvement et les actions de l'utilisateur. Avec plus de 17 milliards de paramètres, Matrix-Game permet un contrôle précis des actions des personnages et des mouvements de la caméra, tout en maintenant une qualité visuelle élevée et une cohérence temporelle. Pour évaluer les performances, nous avons développé GameWorld Score, un benchmark unifié mesurant la qualité visuelle, la qualité temporelle, la contrôlabilité des actions et la compréhension des règles physiques pour la génération de mondes Minecraft. Des expériences approfondies montrent que Matrix-Game surpasse systématiquement les modèles de monde Minecraft open-source précédents (y compris Oasis et MineWorld) sur toutes les métriques, avec des gains particulièrement forts en termes de contrôlabilité et de cohérence physique. Des évaluations humaines en double aveugle confirment en outre la supériorité de Matrix-Game, mettant en évidence sa capacité à générer des vidéos perceptuellement réalistes et précisément contrôlables dans divers scénarios de jeu. Pour faciliter les recherches futures sur la génération interactive d'image à monde, nous mettrons en open-source les poids du modèle Matrix-Game et le benchmark GameWorld Score à l'adresse https://github.com/SkyworkAI/Matrix-Game.
English
We introduce Matrix-Game, an interactive world foundation model for
controllable game world generation. Matrix-Game is trained using a two-stage
pipeline that first performs large-scale unlabeled pretraining for environment
understanding, followed by action-labeled training for interactive video
generation. To support this, we curate Matrix-Game-MC, a comprehensive
Minecraft dataset comprising over 2,700 hours of unlabeled gameplay video clips
and over 1,000 hours of high-quality labeled clips with fine-grained keyboard
and mouse action annotations. Our model adopts a controllable image-to-world
generation paradigm, conditioned on a reference image, motion context, and user
actions. With over 17 billion parameters, Matrix-Game enables precise control
over character actions and camera movements, while maintaining high visual
quality and temporal coherence. To evaluate performance, we develop GameWorld
Score, a unified benchmark measuring visual quality, temporal quality, action
controllability, and physical rule understanding for Minecraft world
generation. Extensive experiments show that Matrix-Game consistently
outperforms prior open-source Minecraft world models (including Oasis and
MineWorld) across all metrics, with particularly strong gains in
controllability and physical consistency. Double-blind human evaluations
further confirm the superiority of Matrix-Game, highlighting its ability to
generate perceptually realistic and precisely controllable videos across
diverse game scenarios. To facilitate future research on interactive
image-to-world generation, we will open-source the Matrix-Game model weights
and the GameWorld Score benchmark at https://github.com/SkyworkAI/Matrix-Game.