Matrix-Game 3.0: Modello di Mondo Interattivo in Tempo Reale e in Streaming con Memoria a Lungo Termine
Matrix-Game 3.0: Real-Time and Streaming Interactive World Model with Long-Horizon Memory
April 10, 2026
Autori: Zile Wang, Zexiang Liu, Jaixing Li, Kaichen Huang, Baixin Xu, Fei Kang, Mengyin An, Peiyu Wang, Biao Jiang, Yichen Wei, Yidan Xietian, Jiangbo Pei, Liang Hu, Boyi Jiang, Hua Xue, Zidong Wang, Haofeng Sun, Wei Li, Wanli Ouyang, Xianglong He, Yang Liu, Yangguang Li, Yahui Zhou
cs.AI
Abstract
Con l'avanzamento della generazione video interattiva, i modelli di diffusione hanno progressivamente dimostrato il loro potenziale come modelli del mondo. Tuttavia, gli approcci esistenti faticano ancora a raggiungere simultaneamente una consistenza temporale a lungo termine abilitata dalla memoria e una generazione in tempo reale ad alta risoluzione, limitandone l'applicabilità in scenari reali. Per affrontare questa sfida, presentiamo Matrix-Game 3.0, un modello del mondo interattivo potenziato con memoria, progettato per la generazione di video lunghi in tempo reale a 720p. Basandoci su Matrix-Game 2.0, introduciamo miglioramenti sistematici a livello di dati, modello e inferenza.
In primo luogo, sviluppiamo un motore di dati infiniti su scala industriale avanzato, che integra dati sintetici basati su Unreal Engine, una raccolta automatizzata su larga scala da giochi AAA e un aumento di dati da video del mondo reale, per produrre quadruplette di dati Video-Posa-Azione-Prompt di alta qualità su larga scala.
In secondo luogo, proponiamo un framework di addestramento per la consistenza su lungo orizzonte: modellando i residui di predizione e reiniettando fotogrammi generati imperfetti durante l'addestramento, il modello base impara l'autocorrezione; allo stesso tempo, il recupero e l'iniezione di memoria consapevoli della telecamera consentono al modello base di raggiungere una consistenza spaziotemporale su lungo orizzonte.
In terzo luogo, progettiamo una strategia di distillazione autoregressiva multi-segmento basata sulla Distillazione per Apprendimento della Distribuzione (DMD), combinata con la quantizzazione del modello e la potatura del decodificatore VAE, per ottenere un'inferenza efficiente in tempo reale.
I risultati sperimentali mostrano che Matrix-Game 3.0 raggiunge una generazione in tempo reale fino a 40 FPS con risoluzione 720p utilizzando un modello da 5B, mantenendo al contempo una consistenza di memoria stabile su sequenze della durata di minuti. Il passaggio a un modello 2x14B migliora ulteriormente la qualità della generazione, le dinamiche e la generalizzazione. Il nostro approccio fornisce un percorso pratico verso modelli del mondo distribuibili su scala industriale.
English
With the advancement of interactive video generation, diffusion models have increasingly demonstrated their potential as world models. However, existing approaches still struggle to simultaneously achieve memory-enabled long-term temporal consistency and high-resolution real-time generation, limiting their applicability in real-world scenarios. To address this, we present Matrix-Game 3.0, a memory-augmented interactive world model designed for 720p real-time longform video generation. Building upon Matrix-Game 2.0, we introduce systematic improvements across data, model, and inference. First, we develop an upgraded industrial-scale infinite data engine that integrates Unreal Engine-based synthetic data, large-scale automated collection from AAA games, and real-world video augmentation to produce high-quality Video-Pose-Action-Prompt quadruplet data at scale. Second, we propose a training framework for long-horizon consistency: by modeling prediction residuals and re-injecting imperfect generated frames during training, the base model learns self-correction; meanwhile, camera-aware memory retrieval and injection enable the base model to achieve long horizon spatiotemporal consistency. Third, we design a multi-segment autoregressive distillation strategy based on Distribution Matching Distillation (DMD), combined with model quantization and VAE decoder pruning, to achieve efficient real-time inference. Experimental results show that Matrix-Game 3.0 achieves up to 40 FPS real-time generation at 720p resolution with a 5B model, while maintaining stable memory consistency over minute-long sequences. Scaling up to a 2x14B model further improves generation quality, dynamics, and generalization. Our approach provides a practical pathway toward industrial-scale deployable world models.