ChatPaper.aiChatPaper

Matrix-Game 3.0 : Modèle de monde interactif en temps réel et en streaming doté d'une mémoire à long horizon

Matrix-Game 3.0: Real-Time and Streaming Interactive World Model with Long-Horizon Memory

April 10, 2026
Auteurs: Zile Wang, Zexiang Liu, Jaixing Li, Kaichen Huang, Baixin Xu, Fei Kang, Mengyin An, Peiyu Wang, Biao Jiang, Yichen Wei, Yidan Xietian, Jiangbo Pei, Liang Hu, Boyi Jiang, Hua Xue, Zidong Wang, Haofeng Sun, Wei Li, Wanli Ouyang, Xianglong He, Yang Liu, Yangguang Li, Yahui Zhou
cs.AI

Résumé

Avec les progrès de la génération vidéo interactive, les modèles de diffusion démontrent de plus en plus leur potentiel en tant que modèles du monde. Cependant, les approches existantes peinent encore à concilier une cohérence temporelle à long terme avec mémoire et une génération en temps réel haute résolution, limitant ainsi leur applicabilité dans des scénarios réels. Pour y remédier, nous présentons Matrix-Game 3.0, un modèle du monde interactif augmenté par une mémoire, conçu pour la génération vidéo longue durée en temps réel 720p. En nous appuyant sur Matrix-Game 2.0, nous introduisons des améliorations systématiques au niveau des données, du modèle et de l'inférence. Premièrement, nous développons un moteur de données infini à l'échelle industrielle amélioré, qui intègre des données synthétiques basées sur Unreal Engine, une collecte automatisée à grande partir de jeux AAA et une augmentation de vidéos du monde réel, pour produire à grande échelle des données quadruplets Vidéo-Posture-Action-Invite de haute qualité. Deuxièmement, nous proposons un cadre d'entraînement pour la cohérence à long terme : en modélisant les résidus de prédiction et en réinjectant des images générées imparfaites durant l'entraînement, le modèle de base apprend l'auto-correction ; parallèlement, la récupération et l'injection de mémoire tenant compte de la caméra permettent au modèle de base d'atteindre une cohérence spatiotemporelle à long horizon. Troisièmement, nous concevons une stratégie de distillation autorégressive multi-segments basée sur la Distillation par Appariement de Distributions (DMD), combinée à une quantification du modèle et à un élagage du décodeur VAE, pour réaliser une inférence en temps réel efficace. Les résultats expérimentaux montrent que Matrix-Game 3.0 atteint une génération en temps réel allant jusqu'à 40 FPS en résolution 720p avec un modèle de 5B, tout en maintenant une cohérence mémoire stable sur des séquences de plus d'une minute. Le passage à un modèle 2x14B améliore encore la qualité de génération, la dynamique et la généralisation. Notre approche ouvre une voie pratique vers des modèles du monde déployables à l'échelle industrielle.
English
With the advancement of interactive video generation, diffusion models have increasingly demonstrated their potential as world models. However, existing approaches still struggle to simultaneously achieve memory-enabled long-term temporal consistency and high-resolution real-time generation, limiting their applicability in real-world scenarios. To address this, we present Matrix-Game 3.0, a memory-augmented interactive world model designed for 720p real-time longform video generation. Building upon Matrix-Game 2.0, we introduce systematic improvements across data, model, and inference. First, we develop an upgraded industrial-scale infinite data engine that integrates Unreal Engine-based synthetic data, large-scale automated collection from AAA games, and real-world video augmentation to produce high-quality Video-Pose-Action-Prompt quadruplet data at scale. Second, we propose a training framework for long-horizon consistency: by modeling prediction residuals and re-injecting imperfect generated frames during training, the base model learns self-correction; meanwhile, camera-aware memory retrieval and injection enable the base model to achieve long horizon spatiotemporal consistency. Third, we design a multi-segment autoregressive distillation strategy based on Distribution Matching Distillation (DMD), combined with model quantization and VAE decoder pruning, to achieve efficient real-time inference. Experimental results show that Matrix-Game 3.0 achieves up to 40 FPS real-time generation at 720p resolution with a 5B model, while maintaining stable memory consistency over minute-long sequences. Scaling up to a 2x14B model further improves generation quality, dynamics, and generalization. Our approach provides a practical pathway toward industrial-scale deployable world models.
PDF362April 14, 2026