Matrix-Game 2.0: Um Modelo de Mundo Interativo de Código Aberto, em Tempo Real e de Transmissão Contínua
Matrix-Game 2.0: An Open-Source, Real-Time, and Streaming Interactive World Model
August 18, 2025
Autores: Xianglong He, Chunli Peng, Zexiang Liu, Boyang Wang, Yifan Zhang, Qi Cui, Fei Kang, Biao Jiang, Mengyin An, Yangyang Ren, Baixin Xu, Hao-Xiang Guo, Kaixiong Gong, Cyrus Wu, Wei Li, Xuchen Song, Yang Liu, Eric Li, Yahui Zhou
cs.AI
Resumo
Avanços recentes na geração de vídeos interativos demonstraram o potencial dos modelos de difusão como modelos de mundo, ao capturar dinâmicas físicas complexas e comportamentos interativos. No entanto, os modelos de mundo interativos existentes dependem de atenção bidirecional e etapas de inferência longas, limitando severamente o desempenho em tempo real. Consequentemente, eles têm dificuldade em simular dinâmicas do mundo real, onde os resultados devem ser atualizados instantaneamente com base no contexto histórico e nas ações atuais. Para resolver isso, apresentamos o Matrix-Game 2.0, um modelo de mundo interativo que gera vídeos longos em tempo real por meio de difusão auto-regressiva de poucos passos. Nosso framework consiste em três componentes principais: (1) Um pipeline escalável de produção de dados para ambientes Unreal Engine e GTA5, capaz de produzir efetivamente grandes quantidades (cerca de 1200 horas) de dados de vídeo com diversas anotações de interação; (2) Um módulo de injeção de ações que permite entradas de mouse e teclado em nível de quadro como condições interativas; (3) Uma destilação de poucos passos baseada na arquitetura causal para geração de vídeo em tempo real e em streaming. O Matrix Game 2.0 pode gerar vídeos de alta qualidade em nível de minuto em diversas cenas a uma velocidade ultrarrápida de 25 FPS. Disponibilizamos nossos pesos de modelo e base de código como open-source para avançar a pesquisa em modelagem de mundo interativo.
English
Recent advances in interactive video generations have demonstrated diffusion
model's potential as world models by capturing complex physical dynamics and
interactive behaviors. However, existing interactive world models depend on
bidirectional attention and lengthy inference steps, severely limiting
real-time performance. Consequently, they are hard to simulate real-world
dynamics, where outcomes must update instantaneously based on historical
context and current actions. To address this, we present Matrix-Game 2.0, an
interactive world model generates long videos on-the-fly via few-step
auto-regressive diffusion. Our framework consists of three key components: (1)
A scalable data production pipeline for Unreal Engine and GTA5 environments to
effectively produce massive amounts (about 1200 hours) of video data with
diverse interaction annotations; (2) An action injection module that enables
frame-level mouse and keyboard inputs as interactive conditions; (3) A few-step
distillation based on the casual architecture for real-time and streaming video
generation. Matrix Game 2.0 can generate high-quality minute-level videos
across diverse scenes at an ultra-fast speed of 25 FPS. We open-source our
model weights and codebase to advance research in interactive world modeling.