ChatPaper.aiChatPaper

Matrix-Game 2.0: Un Modelo de Mundo Interactivo en Tiempo Real, de Transmisión Continua y de Código Abierto

Matrix-Game 2.0: An Open-Source, Real-Time, and Streaming Interactive World Model

August 18, 2025
Autores: Xianglong He, Chunli Peng, Zexiang Liu, Boyang Wang, Yifan Zhang, Qi Cui, Fei Kang, Biao Jiang, Mengyin An, Yangyang Ren, Baixin Xu, Hao-Xiang Guo, Kaixiong Gong, Cyrus Wu, Wei Li, Xuchen Song, Yang Liu, Eric Li, Yahui Zhou
cs.AI

Resumen

Los recientes avances en la generación interactiva de videos han demostrado el potencial de los modelos de difusión como modelos del mundo al capturar dinámicas físicas complejas y comportamientos interactivos. Sin embargo, los modelos interactivos del mundo existentes dependen de atención bidireccional y pasos de inferencia prolongados, lo que limita severamente el rendimiento en tiempo real. En consecuencia, es difícil simular dinámicas del mundo real, donde los resultados deben actualizarse instantáneamente en función del contexto histórico y las acciones actuales. Para abordar esto, presentamos Matrix-Game 2.0, un modelo interactivo del mundo que genera videos largos sobre la marcha mediante difusión autorregresiva de pocos pasos. Nuestro marco consta de tres componentes clave: (1) Una canalización escalable de producción de datos para entornos de Unreal Engine y GTA5, que produce eficazmente grandes cantidades (alrededor de 1200 horas) de datos de video con diversas anotaciones de interacción; (2) Un módulo de inyección de acciones que permite entradas de ratón y teclado a nivel de fotograma como condiciones interactivas; (3) Una destilación de pocos pasos basada en la arquitectura causal para la generación de video en tiempo real y en streaming. Matrix-Game 2.0 puede generar videos de alta calidad a nivel de minuto en diversas escenas a una velocidad ultrarrápida de 25 FPS. Hemos liberado los pesos de nuestro modelo y la base de código para avanzar en la investigación de modelos interactivos del mundo.
English
Recent advances in interactive video generations have demonstrated diffusion model's potential as world models by capturing complex physical dynamics and interactive behaviors. However, existing interactive world models depend on bidirectional attention and lengthy inference steps, severely limiting real-time performance. Consequently, they are hard to simulate real-world dynamics, where outcomes must update instantaneously based on historical context and current actions. To address this, we present Matrix-Game 2.0, an interactive world model generates long videos on-the-fly via few-step auto-regressive diffusion. Our framework consists of three key components: (1) A scalable data production pipeline for Unreal Engine and GTA5 environments to effectively produce massive amounts (about 1200 hours) of video data with diverse interaction annotations; (2) An action injection module that enables frame-level mouse and keyboard inputs as interactive conditions; (3) A few-step distillation based on the casual architecture for real-time and streaming video generation. Matrix Game 2.0 can generate high-quality minute-level videos across diverse scenes at an ultra-fast speed of 25 FPS. We open-source our model weights and codebase to advance research in interactive world modeling.
PDF162August 19, 2025