Matrix-Game 2.0: Открытая, работающая в реальном времени и потоковая интерактивная модель мира
Matrix-Game 2.0: An Open-Source, Real-Time, and Streaming Interactive World Model
August 18, 2025
Авторы: Xianglong He, Chunli Peng, Zexiang Liu, Boyang Wang, Yifan Zhang, Qi Cui, Fei Kang, Biao Jiang, Mengyin An, Yangyang Ren, Baixin Xu, Hao-Xiang Guo, Kaixiong Gong, Cyrus Wu, Wei Li, Xuchen Song, Yang Liu, Eric Li, Yahui Zhou
cs.AI
Аннотация
Последние достижения в области интерактивной генерации видео продемонстрировали потенциал диффузионных моделей как мировых моделей, способных захватывать сложную физическую динамику и интерактивное поведение. Однако существующие интерактивные мировые модели зависят от двунаправленного внимания и длительных шагов вывода, что серьезно ограничивает их производительность в реальном времени. В результате они с трудом моделируют динамику реального мира, где результаты должны мгновенно обновляться на основе исторического контекста и текущих действий. Для решения этой проблемы мы представляем Matrix-Game 2.0 — интерактивную мировую модель, которая генерирует длинные видео на лету с помощью авторегрессивной диффузии за несколько шагов. Наша структура состоит из трех ключевых компонентов: (1) Масштабируемый конвейер производства данных для сред Unreal Engine и GTA5, позволяющий эффективно создавать огромные объемы (около 1200 часов) видеоданных с разнообразными аннотациями взаимодействий; (2) Модуль инъекции действий, который позволяет использовать ввод с клавиатуры и мыши на уровне кадров в качестве интерактивных условий; (3) Дистилляция за несколько шагов, основанная на каузальной архитектуре, для генерации видео в реальном времени и потоковой передачи. Matrix Game 2.0 способен генерировать высококачественные видео продолжительностью в минуты в разнообразных сценах с ультрабыстрой скоростью 25 кадров в секунду. Мы открываем исходные коды и веса модели для продвижения исследований в области интерактивного моделирования миров.
English
Recent advances in interactive video generations have demonstrated diffusion
model's potential as world models by capturing complex physical dynamics and
interactive behaviors. However, existing interactive world models depend on
bidirectional attention and lengthy inference steps, severely limiting
real-time performance. Consequently, they are hard to simulate real-world
dynamics, where outcomes must update instantaneously based on historical
context and current actions. To address this, we present Matrix-Game 2.0, an
interactive world model generates long videos on-the-fly via few-step
auto-regressive diffusion. Our framework consists of three key components: (1)
A scalable data production pipeline for Unreal Engine and GTA5 environments to
effectively produce massive amounts (about 1200 hours) of video data with
diverse interaction annotations; (2) An action injection module that enables
frame-level mouse and keyboard inputs as interactive conditions; (3) A few-step
distillation based on the casual architecture for real-time and streaming video
generation. Matrix Game 2.0 can generate high-quality minute-level videos
across diverse scenes at an ultra-fast speed of 25 FPS. We open-source our
model weights and codebase to advance research in interactive world modeling.