Matrix-Game 2.0: Een Open-Source, Real-Time en Streaming Interactief Wereldmodel
Matrix-Game 2.0: An Open-Source, Real-Time, and Streaming Interactive World Model
August 18, 2025
Auteurs: Xianglong He, Chunli Peng, Zexiang Liu, Boyang Wang, Yifan Zhang, Qi Cui, Fei Kang, Biao Jiang, Mengyin An, Yangyang Ren, Baixin Xu, Hao-Xiang Guo, Kaixiong Gong, Cyrus Wu, Wei Li, Xuchen Song, Yang Liu, Eric Li, Yahui Zhou
cs.AI
Samenvatting
Recente vooruitgang in interactieve videogeneratie heeft het potentieel van diffusiemodellen als wereldmodellen aangetoond door complexe fysieke dynamiek en interactief gedrag vast te leggen. Bestaande interactieve wereldmodellen zijn echter afhankelijk van bidirectionele aandacht en langdurige inferentiestappen, wat de real-time prestaties ernstig beperkt. Hierdoor is het moeilijk om real-world dynamiek te simuleren, waar uitkomsten onmiddellijk moeten worden bijgewerkt op basis van historische context en huidige acties. Om dit aan te pakken, presenteren we Matrix-Game 2.0, een interactief wereldmodel dat lange video's on-the-fly genereert via auto-regressieve diffusie in enkele stappen. Ons framework bestaat uit drie belangrijke componenten: (1) Een schaalbare dataproductiepijplijn voor Unreal Engine en GTA5-omgevingen om effectief grote hoeveelheden (ongeveer 1200 uur) videodata met diverse interactieannotaties te produceren; (2) Een actie-injectiemodule die frame-level muis- en toetsenbordinvoer mogelijk maakt als interactieve voorwaarden; (3) Een distillatie in enkele stappen gebaseerd op de causale architectuur voor real-time en streaming videogeneratie. Matrix Game 2.0 kan hoogwaardige video's op minuutniveau genereren in diverse scènes met een ultrahoge snelheid van 25 FPS. We maken onze modelgewichten en codebase open source om onderzoek in interactieve wereldmodellering te bevorderen.
English
Recent advances in interactive video generations have demonstrated diffusion
model's potential as world models by capturing complex physical dynamics and
interactive behaviors. However, existing interactive world models depend on
bidirectional attention and lengthy inference steps, severely limiting
real-time performance. Consequently, they are hard to simulate real-world
dynamics, where outcomes must update instantaneously based on historical
context and current actions. To address this, we present Matrix-Game 2.0, an
interactive world model generates long videos on-the-fly via few-step
auto-regressive diffusion. Our framework consists of three key components: (1)
A scalable data production pipeline for Unreal Engine and GTA5 environments to
effectively produce massive amounts (about 1200 hours) of video data with
diverse interaction annotations; (2) An action injection module that enables
frame-level mouse and keyboard inputs as interactive conditions; (3) A few-step
distillation based on the casual architecture for real-time and streaming video
generation. Matrix Game 2.0 can generate high-quality minute-level videos
across diverse scenes at an ultra-fast speed of 25 FPS. We open-source our
model weights and codebase to advance research in interactive world modeling.