Matrix-Game 3.0: Echtzeit- und Streaming-fähiges interaktives Weltmodell mit Langzeitgedächtnis
Matrix-Game 3.0: Real-Time and Streaming Interactive World Model with Long-Horizon Memory
April 10, 2026
Autoren: Zile Wang, Zexiang Liu, Jaixing Li, Kaichen Huang, Baixin Xu, Fei Kang, Mengyin An, Peiyu Wang, Biao Jiang, Yichen Wei, Yidan Xietian, Jiangbo Pei, Liang Hu, Boyi Jiang, Hua Xue, Zidong Wang, Haofeng Sun, Wei Li, Wanli Ouyang, Xianglong He, Yang Liu, Yangguang Li, Yahui Zhou
cs.AI
Zusammenfassung
Mit dem Fortschritt der interaktiven Videogenerierung haben Diffusionsmodelle zunehmend ihr Potenzial als Weltmodelle unter Beweis gestellt. Allerdings haben bestehende Ansätze nach wie vor Schwierigkeiten, gleichzeitig langfristige zeitliche Konsistenz mit Gedächtnisfunktion und hochauflösende Echtzeitgenerierung zu erreichen, was ihre Anwendbarkeit in realen Szenarien einschränkt. Um dieses Problem zu lösen, stellen wir Matrix-Game 3.0 vor, ein gedächtnisergänztes interaktives Weltmodell, das für 720p-Echtzeit-Langform-Videogenerierung konzipiert ist. Aufbauend auf Matrix-Game 2.0 führen wir systematische Verbesserungen in den Bereichen Daten, Modell und Inferenz ein. Erstens entwickeln wir eine verbesserte industrietaugliche unendliche Daten-Engine, die auf der Unreal Engine basierende synthetische Daten, großangelegte automatisierte Erfassung aus AAA-Spielen und reale Videoaugmentierung integriert, um hochwertige Video-Pose-Action-Prompt-Vierlingsdaten in großem Maßstab zu erzeugen. Zweitens schlagen wir ein Trainingsframework für langfristige Konsistenz vor: Durch die Modellierung von Vorhersageresiduen und die Wiedereinspeisung unvollkommener generierter Frames während des Trainings lernt das Basismodell Selbstkorrektur; gleichzeitig ermöglichen kameraaware Gedächtnisabruf und -einspeisung dem Basismodell, langfristige raumzeitliche Konsistenz zu erreichen. Drittens entwerfen wir eine multisegmentale autoregressive Destillationsstrategie basierend auf Distribution Matching Distillation (DMD), kombiniert mit Modellquantisierung und VAE-Decoder-Beschneidung, um eine effiziente Echtzeit-Inferenz zu erreichen. Experimentelle Ergebnisse zeigen, dass Matrix-Game 3.0 mit einem 5B-Modell eine Echtzeitgenerierung von bis zu 40 FPS bei 720p-Auflösung erreicht und dabei eine stabile Gedächtniskonsistenz über minutenlange Sequenzen beibehält. Eine Skalierung auf ein 2x14B-Modell verbessert weiterhin die Generierungsqualität, Dynamik und Generalisierungsfähigkeit. Unser Ansatz bietet einen praktischen Weg hin zu industrietauglich einsetzbaren Weltmodellen.
English
With the advancement of interactive video generation, diffusion models have increasingly demonstrated their potential as world models. However, existing approaches still struggle to simultaneously achieve memory-enabled long-term temporal consistency and high-resolution real-time generation, limiting their applicability in real-world scenarios. To address this, we present Matrix-Game 3.0, a memory-augmented interactive world model designed for 720p real-time longform video generation. Building upon Matrix-Game 2.0, we introduce systematic improvements across data, model, and inference. First, we develop an upgraded industrial-scale infinite data engine that integrates Unreal Engine-based synthetic data, large-scale automated collection from AAA games, and real-world video augmentation to produce high-quality Video-Pose-Action-Prompt quadruplet data at scale. Second, we propose a training framework for long-horizon consistency: by modeling prediction residuals and re-injecting imperfect generated frames during training, the base model learns self-correction; meanwhile, camera-aware memory retrieval and injection enable the base model to achieve long horizon spatiotemporal consistency. Third, we design a multi-segment autoregressive distillation strategy based on Distribution Matching Distillation (DMD), combined with model quantization and VAE decoder pruning, to achieve efficient real-time inference. Experimental results show that Matrix-Game 3.0 achieves up to 40 FPS real-time generation at 720p resolution with a 5B model, while maintaining stable memory consistency over minute-long sequences. Scaling up to a 2x14B model further improves generation quality, dynamics, and generalization. Our approach provides a practical pathway toward industrial-scale deployable world models.