Matrix-Game 3.0: Modelo de Mundo Interactivo en Tiempo Real y Flujo Continuo con Memoria de Largo Alcance
Matrix-Game 3.0: Real-Time and Streaming Interactive World Model with Long-Horizon Memory
April 10, 2026
Autores: Zile Wang, Zexiang Liu, Jaixing Li, Kaichen Huang, Baixin Xu, Fei Kang, Mengyin An, Peiyu Wang, Biao Jiang, Yichen Wei, Yidan Xietian, Jiangbo Pei, Liang Hu, Boyi Jiang, Hua Xue, Zidong Wang, Haofeng Sun, Wei Li, Wanli Ouyang, Xianglong He, Yang Liu, Yangguang Li, Yahui Zhou
cs.AI
Resumen
Con el avance de la generación de video interactivo, los modelos de difusión han demostrado cada vez más su potencial como modelos del mundo. Sin embargo, los enfoques existentes aún luchan por lograr simultáneamente una consistencia temporal a largo plazo con memoria y una generación en tiempo real de alta resolución, lo que limita su aplicabilidad en escenarios del mundo real. Para abordar esto, presentamos Matrix-Game 3.0, un modelo del mundo interactivo aumentado con memoria diseñado para la generación de video de larga duración en tiempo real a 720p. Basándonos en Matrix-Game 2.0, introducimos mejoras sistemáticas en datos, modelo e inferencia. En primer lugar, desarrollamos un motor de datos infinito a escala industrial mejorado que integra datos sintéticos basados en Unreal Engine, recolección automatizada a gran escala de juegos AAA y aumento de video del mundo real para producir a escala datos cuádruples de Video-Pose-Acción-Prompt de alta calidad. En segundo lugar, proponemos un marco de entrenamiento para la consistencia de largo horizonte: al modelar residuos de predicción y reinyectar fotogramas generados imperfectos durante el entrenamiento, el modelo base aprende la autocorrección; mientras tanto, la recuperación e inyección de memoria con conciencia de la cámara permiten que el modelo base logre una consistencia espaciotemporal de largo horizonte. En tercer lugar, diseñamos una estrategia de destilación autoregresiva multisegmento basada en Destilación por Correspondencia de Distribuciones (DMD), combinada con cuantización del modelo y poda del decodificador VAE, para lograr una inferencia eficiente en tiempo real. Los resultados experimentales muestran que Matrix-Game 3.0 alcanza hasta 40 FPS en generación en tiempo real a resolución 720p con un modelo de 5B, manteniendo al mismo tiempo una consistencia de memoria estable en secuencias de más de un minuto. Escalar a un modelo 2x14B mejora aún más la calidad de generación, la dinámica y la generalización. Nuestro enfoque proporciona una vía práctica hacia modelos del mundo implementables a escala industrial.
English
With the advancement of interactive video generation, diffusion models have increasingly demonstrated their potential as world models. However, existing approaches still struggle to simultaneously achieve memory-enabled long-term temporal consistency and high-resolution real-time generation, limiting their applicability in real-world scenarios. To address this, we present Matrix-Game 3.0, a memory-augmented interactive world model designed for 720p real-time longform video generation. Building upon Matrix-Game 2.0, we introduce systematic improvements across data, model, and inference. First, we develop an upgraded industrial-scale infinite data engine that integrates Unreal Engine-based synthetic data, large-scale automated collection from AAA games, and real-world video augmentation to produce high-quality Video-Pose-Action-Prompt quadruplet data at scale. Second, we propose a training framework for long-horizon consistency: by modeling prediction residuals and re-injecting imperfect generated frames during training, the base model learns self-correction; meanwhile, camera-aware memory retrieval and injection enable the base model to achieve long horizon spatiotemporal consistency. Third, we design a multi-segment autoregressive distillation strategy based on Distribution Matching Distillation (DMD), combined with model quantization and VAE decoder pruning, to achieve efficient real-time inference. Experimental results show that Matrix-Game 3.0 achieves up to 40 FPS real-time generation at 720p resolution with a 5B model, while maintaining stable memory consistency over minute-long sequences. Scaling up to a 2x14B model further improves generation quality, dynamics, and generalization. Our approach provides a practical pathway toward industrial-scale deployable world models.