Matrix-Game 2.0: Ein Open-Source-, Echtzeit- und Streaming-fähiges interaktives Weltmodell
Matrix-Game 2.0: An Open-Source, Real-Time, and Streaming Interactive World Model
August 18, 2025
papers.authors: Xianglong He, Chunli Peng, Zexiang Liu, Boyang Wang, Yifan Zhang, Qi Cui, Fei Kang, Biao Jiang, Mengyin An, Yangyang Ren, Baixin Xu, Hao-Xiang Guo, Kaixiong Gong, Cyrus Wu, Wei Li, Xuchen Song, Yang Liu, Eric Li, Yahui Zhou
cs.AI
papers.abstract
Jüngste Fortschritte in der interaktiven Videogenerierung haben das Potenzial von Diffusionsmodellen als Weltmodelle aufgezeigt, indem sie komplexe physikalische Dynamiken und interaktive Verhaltensweisen erfassen. Allerdings basieren bestehende interaktive Weltmodelle auf bidirektionaler Aufmerksamkeit und langwierigen Inferenzschritten, was die Echtzeitleistung erheblich einschränkt. Folglich ist es schwierig, reale Dynamiken zu simulieren, bei denen Ergebnisse sofort basierend auf historischem Kontext und aktuellen Aktionen aktualisiert werden müssen. Um dies zu adressieren, präsentieren wir Matrix-Game 2.0, ein interaktives Weltmodell, das lange Videos in Echtzeit über wenige autoregressive Diffusionsschritte generiert. Unser Framework besteht aus drei Schlüsselkomponenten: (1) Eine skalierbare Datenproduktionspipeline für Unreal Engine und GTA5-Umgebungen, um effektiv große Mengen (etwa 1200 Stunden) an Videodaten mit diversen Interaktionsannotationen zu erzeugen; (2) Ein Aktionsinjektionsmodul, das Maus- und Tastatureingaben auf Frame-Ebene als interaktive Bedingungen ermöglicht; (3) Eine wenige Schritte umfassende Destillation basierend auf einer kausalen Architektur für die Echtzeit- und Streaming-Videogenerierung. Matrix-Game 2.0 kann qualitativ hochwertige Minuten-Videos in diversen Szenen mit einer ultraschnellen Geschwindigkeit von 25 FPS erzeugen. Wir stellen unsere Modellgewichte und Codebasis als Open Source zur Verfügung, um die Forschung im Bereich der interaktiven Weltmodellierung voranzutreiben.
English
Recent advances in interactive video generations have demonstrated diffusion
model's potential as world models by capturing complex physical dynamics and
interactive behaviors. However, existing interactive world models depend on
bidirectional attention and lengthy inference steps, severely limiting
real-time performance. Consequently, they are hard to simulate real-world
dynamics, where outcomes must update instantaneously based on historical
context and current actions. To address this, we present Matrix-Game 2.0, an
interactive world model generates long videos on-the-fly via few-step
auto-regressive diffusion. Our framework consists of three key components: (1)
A scalable data production pipeline for Unreal Engine and GTA5 environments to
effectively produce massive amounts (about 1200 hours) of video data with
diverse interaction annotations; (2) An action injection module that enables
frame-level mouse and keyboard inputs as interactive conditions; (3) A few-step
distillation based on the casual architecture for real-time and streaming video
generation. Matrix Game 2.0 can generate high-quality minute-level videos
across diverse scenes at an ultra-fast speed of 25 FPS. We open-source our
model weights and codebase to advance research in interactive world modeling.