Matrix-Game 2.0: オープンソース、リアルタイム、ストリーミング対応のインタラクティブワールドモデル
Matrix-Game 2.0: An Open-Source, Real-Time, and Streaming Interactive World Model
August 18, 2025
著者: Xianglong He, Chunli Peng, Zexiang Liu, Boyang Wang, Yifan Zhang, Qi Cui, Fei Kang, Biao Jiang, Mengyin An, Yangyang Ren, Baixin Xu, Hao-Xiang Guo, Kaixiong Gong, Cyrus Wu, Wei Li, Xuchen Song, Yang Liu, Eric Li, Yahui Zhou
cs.AI
要旨
近年のインタラクティブビデオ生成の進展により、拡散モデルが複雑な物理的ダイナミクスやインタラクティブな挙動を捉えることで、世界モデルとしての潜在能力を示してきた。しかし、既存のインタラクティブ世界モデルは双方向の注意機構と長い推論ステップに依存しており、リアルタイム性能が大幅に制限されている。その結果、過去の文脈と現在のアクションに基づいて即座に結果を更新する必要がある現実世界のダイナミクスをシミュレートすることが困難である。この問題に対処するため、我々はMatrix-Game 2.0を提案する。これは、数ステップの自己回帰型拡散を用いてリアルタイムで長いビデオを生成するインタラクティブ世界モデルである。我々のフレームワークは以下の3つの主要なコンポーネントで構成されている:(1) Unreal EngineおよびGTA5環境におけるスケーラブルなデータ生産パイプライン。これにより、多様なインタラクションアノテーションを伴う大量のビデオデータ(約1200時間)を効率的に生成する。(2) フレームレベルのマウスおよびキーボード入力をインタラクティブ条件として可能にするアクション注入モジュール。(3) リアルタイムおよびストリーミングビデオ生成のための因果的アーキテクチャに基づく数ステップ蒸留。Matrix-Game 2.0は、多様なシーンにおいて25 FPSの超高速で高品質な分単位のビデオを生成することができる。我々は、インタラクティブ世界モデリングの研究を推進するため、モデルの重みとコードベースをオープンソースとして公開する。
English
Recent advances in interactive video generations have demonstrated diffusion
model's potential as world models by capturing complex physical dynamics and
interactive behaviors. However, existing interactive world models depend on
bidirectional attention and lengthy inference steps, severely limiting
real-time performance. Consequently, they are hard to simulate real-world
dynamics, where outcomes must update instantaneously based on historical
context and current actions. To address this, we present Matrix-Game 2.0, an
interactive world model generates long videos on-the-fly via few-step
auto-regressive diffusion. Our framework consists of three key components: (1)
A scalable data production pipeline for Unreal Engine and GTA5 environments to
effectively produce massive amounts (about 1200 hours) of video data with
diverse interaction annotations; (2) An action injection module that enables
frame-level mouse and keyboard inputs as interactive conditions; (3) A few-step
distillation based on the casual architecture for real-time and streaming video
generation. Matrix Game 2.0 can generate high-quality minute-level videos
across diverse scenes at an ultra-fast speed of 25 FPS. We open-source our
model weights and codebase to advance research in interactive world modeling.