Matrix-Game 2.0: Un Modelo de Mundo Interactivo en Tiempo Real, de Transmisión Continua y de Código Abierto
Matrix-Game 2.0: An Open-Source, Real-Time, and Streaming Interactive World Model
August 18, 2025
Autores: Xianglong He, Chunli Peng, Zexiang Liu, Boyang Wang, Yifan Zhang, Qi Cui, Fei Kang, Biao Jiang, Mengyin An, Yangyang Ren, Baixin Xu, Hao-Xiang Guo, Kaixiong Gong, Cyrus Wu, Wei Li, Xuchen Song, Yang Liu, Eric Li, Yahui Zhou
cs.AI
Resumen
Los recientes avances en la generación interactiva de videos han demostrado el potencial de los modelos de difusión como modelos del mundo al capturar dinámicas físicas complejas y comportamientos interactivos. Sin embargo, los modelos interactivos del mundo existentes dependen de atención bidireccional y pasos de inferencia prolongados, lo que limita severamente el rendimiento en tiempo real. En consecuencia, es difícil simular dinámicas del mundo real, donde los resultados deben actualizarse instantáneamente en función del contexto histórico y las acciones actuales. Para abordar esto, presentamos Matrix-Game 2.0, un modelo interactivo del mundo que genera videos largos sobre la marcha mediante difusión autorregresiva de pocos pasos. Nuestro marco consta de tres componentes clave: (1) Una canalización escalable de producción de datos para entornos de Unreal Engine y GTA5, que produce eficazmente grandes cantidades (alrededor de 1200 horas) de datos de video con diversas anotaciones de interacción; (2) Un módulo de inyección de acciones que permite entradas de ratón y teclado a nivel de fotograma como condiciones interactivas; (3) Una destilación de pocos pasos basada en la arquitectura causal para la generación de video en tiempo real y en streaming. Matrix-Game 2.0 puede generar videos de alta calidad a nivel de minuto en diversas escenas a una velocidad ultrarrápida de 25 FPS. Hemos liberado los pesos de nuestro modelo y la base de código para avanzar en la investigación de modelos interactivos del mundo.
English
Recent advances in interactive video generations have demonstrated diffusion
model's potential as world models by capturing complex physical dynamics and
interactive behaviors. However, existing interactive world models depend on
bidirectional attention and lengthy inference steps, severely limiting
real-time performance. Consequently, they are hard to simulate real-world
dynamics, where outcomes must update instantaneously based on historical
context and current actions. To address this, we present Matrix-Game 2.0, an
interactive world model generates long videos on-the-fly via few-step
auto-regressive diffusion. Our framework consists of three key components: (1)
A scalable data production pipeline for Unreal Engine and GTA5 environments to
effectively produce massive amounts (about 1200 hours) of video data with
diverse interaction annotations; (2) An action injection module that enables
frame-level mouse and keyboard inputs as interactive conditions; (3) A few-step
distillation based on the casual architecture for real-time and streaming video
generation. Matrix Game 2.0 can generate high-quality minute-level videos
across diverse scenes at an ultra-fast speed of 25 FPS. We open-source our
model weights and codebase to advance research in interactive world modeling.