Matrix-Game 3.0: Интерактивная модель мира в реальном времени с потоковым взаимодействием и долгосрочной памятью
Matrix-Game 3.0: Real-Time and Streaming Interactive World Model with Long-Horizon Memory
April 10, 2026
Авторы: Zile Wang, Zexiang Liu, Jaixing Li, Kaichen Huang, Baixin Xu, Fei Kang, Mengyin An, Peiyu Wang, Biao Jiang, Yichen Wei, Yidan Xietian, Jiangbo Pei, Liang Hu, Boyi Jiang, Hua Xue, Zidong Wang, Haofeng Sun, Wei Li, Wanli Ouyang, Xianglong He, Yang Liu, Yangguang Li, Yahui Zhou
cs.AI
Аннотация
С развитием интерактивной генерации видео диффузионные модели все чаще демонстрируют свой потенциал в качестве мировых моделей. Однако существующие подходы по-прежнему сталкиваются с трудностями при одновременном достижении долговременной временной согласованности с использованием памяти и генерации высокого разрешения в реальном времени, что ограничивает их применимость в реальных сценариях. Для решения этой проблемы мы представляем Matrix-Game 3.0 — интерактивную мировую модель с расширенной памятью, предназначенную для длительной генерации видео в режиме реального времени с разрешением 720p. Основываясь на Matrix-Game 2.0, мы вводим системные улучшения в данных, модели и выводе. Во-первых, мы разработали усовершенствованный промышленный механизм генерации бесконечных данных, который интегрирует синтетические данные на основе Unreal Engine, крупномасштабный автоматизированный сбор из AAA-игр и аугментацию реальных видео для массового производства высококачественных четверок данных «Видео-Поза-Действие-Промпт». Во-вторых, мы предлагаем фреймворк обучения для долгосрочной согласованности: путем моделирования остатков прогнозирования и повторного введения сгенерированных неидеальных кадров во время обучения базовая модель обучается самокоррекции; в то же время, механизм извлечения и внедрения памяти с учетом камеры позволяет базовой модели достигать долгосрочной пространственно-временной согласованности. В-третьих, мы разработали стратегию авторегрессионной дистилляции на нескольких сегментах на основе Distribution Matching Distillation (DMD) в сочетании с квантованием модели и прунингом декодера VAE для достижения эффективного вывода в реальном времени. Результаты экспериментов показывают, что Matrix-Game 3.0 достигает генерации в реальном времени до 40 кадров/с при разрешении 720p с моделью на 5B параметров, сохраняя стабильную согласованность памяти на последовательностях длительностью более минуты. Масштабирование до модели 2x14B дополнительно улучшает качество генерации, динамику и обобщающую способность. Наш подход предлагает практический путь к созданию развертываемых мировых моделей промышленного масштаба.
English
With the advancement of interactive video generation, diffusion models have increasingly demonstrated their potential as world models. However, existing approaches still struggle to simultaneously achieve memory-enabled long-term temporal consistency and high-resolution real-time generation, limiting their applicability in real-world scenarios. To address this, we present Matrix-Game 3.0, a memory-augmented interactive world model designed for 720p real-time longform video generation. Building upon Matrix-Game 2.0, we introduce systematic improvements across data, model, and inference. First, we develop an upgraded industrial-scale infinite data engine that integrates Unreal Engine-based synthetic data, large-scale automated collection from AAA games, and real-world video augmentation to produce high-quality Video-Pose-Action-Prompt quadruplet data at scale. Second, we propose a training framework for long-horizon consistency: by modeling prediction residuals and re-injecting imperfect generated frames during training, the base model learns self-correction; meanwhile, camera-aware memory retrieval and injection enable the base model to achieve long horizon spatiotemporal consistency. Third, we design a multi-segment autoregressive distillation strategy based on Distribution Matching Distillation (DMD), combined with model quantization and VAE decoder pruning, to achieve efficient real-time inference. Experimental results show that Matrix-Game 3.0 achieves up to 40 FPS real-time generation at 720p resolution with a 5B model, while maintaining stable memory consistency over minute-long sequences. Scaling up to a 2x14B model further improves generation quality, dynamics, and generalization. Our approach provides a practical pathway toward industrial-scale deployable world models.