ChatPaper.aiChatPaper

Matrix-Game 2.0: Um Modelo de Mundo Interativo de Código Aberto, em Tempo Real e de Transmissão Contínua

Matrix-Game 2.0: An Open-Source, Real-Time, and Streaming Interactive World Model

August 18, 2025
Autores: Xianglong He, Chunli Peng, Zexiang Liu, Boyang Wang, Yifan Zhang, Qi Cui, Fei Kang, Biao Jiang, Mengyin An, Yangyang Ren, Baixin Xu, Hao-Xiang Guo, Kaixiong Gong, Cyrus Wu, Wei Li, Xuchen Song, Yang Liu, Eric Li, Yahui Zhou
cs.AI

Resumo

Avanços recentes na geração de vídeos interativos demonstraram o potencial dos modelos de difusão como modelos de mundo, ao capturar dinâmicas físicas complexas e comportamentos interativos. No entanto, os modelos de mundo interativos existentes dependem de atenção bidirecional e etapas de inferência longas, limitando severamente o desempenho em tempo real. Consequentemente, eles têm dificuldade em simular dinâmicas do mundo real, onde os resultados devem ser atualizados instantaneamente com base no contexto histórico e nas ações atuais. Para resolver isso, apresentamos o Matrix-Game 2.0, um modelo de mundo interativo que gera vídeos longos em tempo real por meio de difusão auto-regressiva de poucos passos. Nosso framework consiste em três componentes principais: (1) Um pipeline escalável de produção de dados para ambientes Unreal Engine e GTA5, capaz de produzir efetivamente grandes quantidades (cerca de 1200 horas) de dados de vídeo com diversas anotações de interação; (2) Um módulo de injeção de ações que permite entradas de mouse e teclado em nível de quadro como condições interativas; (3) Uma destilação de poucos passos baseada na arquitetura causal para geração de vídeo em tempo real e em streaming. O Matrix Game 2.0 pode gerar vídeos de alta qualidade em nível de minuto em diversas cenas a uma velocidade ultrarrápida de 25 FPS. Disponibilizamos nossos pesos de modelo e base de código como open-source para avançar a pesquisa em modelagem de mundo interativo.
English
Recent advances in interactive video generations have demonstrated diffusion model's potential as world models by capturing complex physical dynamics and interactive behaviors. However, existing interactive world models depend on bidirectional attention and lengthy inference steps, severely limiting real-time performance. Consequently, they are hard to simulate real-world dynamics, where outcomes must update instantaneously based on historical context and current actions. To address this, we present Matrix-Game 2.0, an interactive world model generates long videos on-the-fly via few-step auto-regressive diffusion. Our framework consists of three key components: (1) A scalable data production pipeline for Unreal Engine and GTA5 environments to effectively produce massive amounts (about 1200 hours) of video data with diverse interaction annotations; (2) An action injection module that enables frame-level mouse and keyboard inputs as interactive conditions; (3) A few-step distillation based on the casual architecture for real-time and streaming video generation. Matrix Game 2.0 can generate high-quality minute-level videos across diverse scenes at an ultra-fast speed of 25 FPS. We open-source our model weights and codebase to advance research in interactive world modeling.
PDF242August 19, 2025