ChatPaper.aiChatPaper

Matrix-Game 3.0: Modelo de Mundo Interativo em Tempo Real e Streaming com Memória de Longo Prazo

Matrix-Game 3.0: Real-Time and Streaming Interactive World Model with Long-Horizon Memory

April 10, 2026
Autores: Zile Wang, Zexiang Liu, Jaixing Li, Kaichen Huang, Baixin Xu, Fei Kang, Mengyin An, Peiyu Wang, Biao Jiang, Yichen Wei, Yidan Xietian, Jiangbo Pei, Liang Hu, Boyi Jiang, Hua Xue, Zidong Wang, Haofeng Sun, Wei Li, Wanli Ouyang, Xianglong He, Yang Liu, Yangguang Li, Yahui Zhou
cs.AI

Resumo

Com o avanço da geração de vídeo interativo, os modelos de difusão têm demonstrado cada vez mais seu potencial como modelos de mundo. No entanto, as abordagens existentes ainda lutam para alcançar simultaneamente consistência temporal de longo prazo com memória e geração em tempo real de alta resolução, limitando sua aplicabilidade em cenários do mundo real. Para resolver isso, apresentamos o Matrix-Game 3.0, um modelo de mundo interativo aumentado por memória, projetado para geração de vídeos longos em tempo real em 720p. Com base no Matrix-Game 2.0, introduzimos melhorias sistemáticas em dados, modelo e inferência. Primeiro, desenvolvemos um motor de dados infinitos de escala industrial atualizado que integra dados sintéticos baseados no Unreal Engine, coleta automatizada em larga escala de jogos AAA e aumento de vídeos do mundo real para produzir dados quadrupletos Vídeo-Postura-Ação-Prompt de alta qualidade em escala. Segundo, propomos uma estrutura de treinamento para consistência de longo horizonte: ao modelar resíduos de previsão e reinjetar quadros gerados imperfeitos durante o treinamento, o modelo base aprende a autocorreção; entretanto, a recuperação e injeção de memória com consciência da câmera permitem que o modelo base alcance consistência espaço-temporal de longo horizonte. Terceiro, projetamos uma estratégia de destilação autorregressiva multi-segmento baseada na Destilação por Correspondência de Distribuição (DMD), combinada com quantização do modelo e poda do decodificador VAE, para alcançar inferência eficiente em tempo real. Resultados experimentais mostram que o Matrix-Game 3.0 alcança geração em tempo real de até 40 FPS em resolução 720p com um modelo de 5B, mantendo consistência de memória estável em sequências com duração de minutos. Escalar para um modelo 2x14B melhora ainda mais a qualidade de geração, a dinâmica e a generalização. Nossa abordagem fornece um caminho prático para modelos de mundo implantáveis em escala industrial.
English
With the advancement of interactive video generation, diffusion models have increasingly demonstrated their potential as world models. However, existing approaches still struggle to simultaneously achieve memory-enabled long-term temporal consistency and high-resolution real-time generation, limiting their applicability in real-world scenarios. To address this, we present Matrix-Game 3.0, a memory-augmented interactive world model designed for 720p real-time longform video generation. Building upon Matrix-Game 2.0, we introduce systematic improvements across data, model, and inference. First, we develop an upgraded industrial-scale infinite data engine that integrates Unreal Engine-based synthetic data, large-scale automated collection from AAA games, and real-world video augmentation to produce high-quality Video-Pose-Action-Prompt quadruplet data at scale. Second, we propose a training framework for long-horizon consistency: by modeling prediction residuals and re-injecting imperfect generated frames during training, the base model learns self-correction; meanwhile, camera-aware memory retrieval and injection enable the base model to achieve long horizon spatiotemporal consistency. Third, we design a multi-segment autoregressive distillation strategy based on Distribution Matching Distillation (DMD), combined with model quantization and VAE decoder pruning, to achieve efficient real-time inference. Experimental results show that Matrix-Game 3.0 achieves up to 40 FPS real-time generation at 720p resolution with a 5B model, while maintaining stable memory consistency over minute-long sequences. Scaling up to a 2x14B model further improves generation quality, dynamics, and generalization. Our approach provides a practical pathway toward industrial-scale deployable world models.
PDF362April 14, 2026