Matrix-Game 2.0 : Un modèle de monde interactif open-source, en temps réel et en streaming
Matrix-Game 2.0: An Open-Source, Real-Time, and Streaming Interactive World Model
August 18, 2025
papers.authors: Xianglong He, Chunli Peng, Zexiang Liu, Boyang Wang, Yifan Zhang, Qi Cui, Fei Kang, Biao Jiang, Mengyin An, Yangyang Ren, Baixin Xu, Hao-Xiang Guo, Kaixiong Gong, Cyrus Wu, Wei Li, Xuchen Song, Yang Liu, Eric Li, Yahui Zhou
cs.AI
papers.abstract
Les récents progrès dans la génération interactive de vidéos ont démontré le potentiel des modèles de diffusion en tant que modèles du monde, en capturant des dynamiques physiques complexes et des comportements interactifs. Cependant, les modèles interactifs du monde existants dépendent d'une attention bidirectionnelle et d'étapes d'inférence longues, limitant gravement les performances en temps réel. Par conséquent, il leur est difficile de simuler les dynamiques du monde réel, où les résultats doivent être mis à jour instantanément en fonction du contexte historique et des actions actuelles. Pour résoudre ce problème, nous présentons Matrix-Game 2.0, un modèle interactif du monde qui génère de longues vidéos à la volée via une diffusion auto-régressive en quelques étapes. Notre cadre se compose de trois éléments clés : (1) Un pipeline de production de données scalable pour les environnements Unreal Engine et GTA5, permettant de produire efficacement de grandes quantités (environ 1200 heures) de données vidéo avec des annotations d'interaction diverses ; (2) Un module d'injection d'actions qui permet des entrées de souris et de clavier au niveau de l'image comme conditions interactives ; (3) Une distillation en quelques étapes basée sur l'architecture causale pour la génération de vidéos en temps réel et en streaming. Matrix-Game 2.0 peut générer des vidéos de haute qualité de niveau minute dans des scènes diverses à une vitesse ultra-rapide de 25 FPS. Nous mettons à disposition en open-source les poids de notre modèle et la base de code pour faire avancer la recherche dans la modélisation interactive du monde.
English
Recent advances in interactive video generations have demonstrated diffusion
model's potential as world models by capturing complex physical dynamics and
interactive behaviors. However, existing interactive world models depend on
bidirectional attention and lengthy inference steps, severely limiting
real-time performance. Consequently, they are hard to simulate real-world
dynamics, where outcomes must update instantaneously based on historical
context and current actions. To address this, we present Matrix-Game 2.0, an
interactive world model generates long videos on-the-fly via few-step
auto-regressive diffusion. Our framework consists of three key components: (1)
A scalable data production pipeline for Unreal Engine and GTA5 environments to
effectively produce massive amounts (about 1200 hours) of video data with
diverse interaction annotations; (2) An action injection module that enables
frame-level mouse and keyboard inputs as interactive conditions; (3) A few-step
distillation based on the casual architecture for real-time and streaming video
generation. Matrix Game 2.0 can generate high-quality minute-level videos
across diverse scenes at an ultra-fast speed of 25 FPS. We open-source our
model weights and codebase to advance research in interactive world modeling.