ChatPaper.aiChatPaper

Matrix-Game 3.0: Een Interactief Wereldmodel voor Real-Time en Streaming met Langetermijngeheugen

Matrix-Game 3.0: Real-Time and Streaming Interactive World Model with Long-Horizon Memory

April 10, 2026
Auteurs: Zile Wang, Zexiang Liu, Jaixing Li, Kaichen Huang, Baixin Xu, Fei Kang, Mengyin An, Peiyu Wang, Biao Jiang, Yichen Wei, Yidan Xietian, Jiangbo Pei, Liang Hu, Boyi Jiang, Hua Xue, Zidong Wang, Haofeng Sun, Wei Li, Wanli Ouyang, Xianglong He, Yang Liu, Yangguang Li, Yahui Zhou
cs.AI

Samenvatting

Met de vooruitgang in interactieve videogeneratie hebben diffusiemodellen steeds meer hun potentieel getoond als wereldmodellen. Bestaande methoden worstelen echter nog steeds met het gelijktijdig bereiken van langetermijn temporele consistentie met geheugenmogelijkheden en realtime generatie van hoge resolutie, wat hun toepasbaarheid in realistische scenario's beperkt. Om dit aan te pakken, presenteren wij Matrix-Game 3.0, een met geheugen versterkt interactief wereldmodel ontworpen voor realtime langdurige videogeneratie in 720p. Voortbouwend op Matrix-Game 2.0 introduceren wij systematische verbeteringen op het gebied van data, model en inferentie. Ten eerste ontwikkelen wij een geüpgraded industrieel-schaal oneindig data-engine die synthetische data op basis van Unreal Engine integreert, grootschalige geautomatiseerde verzameling van AAA-games en augmentatie van real-world video's om op schaal hoogwaardige viertaldata (Video-Pose-Actie-Prompt) te produceren. Ten tweede stellen wij een trainingsframework voor voor consistentie op lange termijn: door het modelleren van voorspellingsresiduen en het opnieuw injecteren van imperfect gegenereerde frames tijdens de training, leert het basismodel zelfcorrectie; ondertussen stellen camera-aware geheugenretrieval en -injectie het basismodel in staat om langdurige spatiotemporele consistentie te bereiken. Ten derde ontwerpen wij een multi-segment autoregressieve distillatiestrategie gebaseerd op Distribution Matching Distillation (DMD), gecombineerd met modelkwantisatie en VAE-decodersnoei, om efficiënte realtime-inferentie te bereiken. Experimentele resultaten tonen aan dat Matrix-Game 3.0 realtime generatie bereikt tot 40 FPS bij 720p resolutie met een 5B-model, waarbij stabiele geheugenconsistentie over minutenlange sequenties behouden blijft. Opschaling naar een 2x14B-model verbetert verder de generatiekwaliteit, dynamiek en generalisatie. Onze aanpak biedt een praktisch pad richting industrieel-schaal inzetbare wereldmodellen.
English
With the advancement of interactive video generation, diffusion models have increasingly demonstrated their potential as world models. However, existing approaches still struggle to simultaneously achieve memory-enabled long-term temporal consistency and high-resolution real-time generation, limiting their applicability in real-world scenarios. To address this, we present Matrix-Game 3.0, a memory-augmented interactive world model designed for 720p real-time longform video generation. Building upon Matrix-Game 2.0, we introduce systematic improvements across data, model, and inference. First, we develop an upgraded industrial-scale infinite data engine that integrates Unreal Engine-based synthetic data, large-scale automated collection from AAA games, and real-world video augmentation to produce high-quality Video-Pose-Action-Prompt quadruplet data at scale. Second, we propose a training framework for long-horizon consistency: by modeling prediction residuals and re-injecting imperfect generated frames during training, the base model learns self-correction; meanwhile, camera-aware memory retrieval and injection enable the base model to achieve long horizon spatiotemporal consistency. Third, we design a multi-segment autoregressive distillation strategy based on Distribution Matching Distillation (DMD), combined with model quantization and VAE decoder pruning, to achieve efficient real-time inference. Experimental results show that Matrix-Game 3.0 achieves up to 40 FPS real-time generation at 720p resolution with a 5B model, while maintaining stable memory consistency over minute-long sequences. Scaling up to a 2x14B model further improves generation quality, dynamics, and generalization. Our approach provides a practical pathway toward industrial-scale deployable world models.
PDF362April 14, 2026