Matrix-Game: インタラクティブ世界基盤モデル
Matrix-Game: Interactive World Foundation Model
June 23, 2025
著者: Yifan Zhang, Chunli Peng, Boyang Wang, Puyi Wang, Qingcheng Zhu, Fei Kang, Biao Jiang, Zedong Gao, Eric Li, Yang Liu, Yahui Zhou
cs.AI
要旨
Matrix-Gameを紹介する。これは、制御可能なゲームワールド生成のためのインタラクティブな世界基盤モデルである。Matrix-Gameは、環境理解のための大規模なラベルなし事前学習を行い、その後インタラクティブなビデオ生成のためのアクションラベル付き学習を行う2段階のパイプラインで訓練される。これを支援するため、Matrix-Game-MCという包括的なMinecraftデータセットを構築した。このデータセットには、2,700時間以上のラベルなしゲームプレイ動画クリップと、1,000時間以上の高品質なラベル付きクリップが含まれており、細かいキーボードとマウスのアクションアノテーションが付いている。我々のモデルは、参照画像、モーションコンテキスト、ユーザーアクションを条件とした制御可能な画像からワールド生成パラダイムを採用している。170億以上のパラメータを持つMatrix-Gameは、キャラクターのアクションやカメラの動きを精密に制御しつつ、高い視覚品質と時間的一貫性を維持する。性能を評価するため、Minecraftワールド生成の視覚品質、時間的品質、アクション制御性、物理法則理解を測定する統一ベンチマークであるGameWorld Scoreを開発した。広範な実験により、Matrix-Gameは、すべての指標において既存のオープンソースMinecraftワールドモデル(OasisやMineWorldを含む)を一貫して上回り、特に制御性と物理的一貫性において大きな向上を示した。ダブルブラインドの人間評価もMatrix-Gameの優位性をさらに確認し、多様なゲームシナリオにおいて知覚的に現実的で精密に制御可能なビデオを生成する能力を強調した。インタラクティブな画像からワールド生成の将来の研究を促進するため、Matrix-Gameのモデル重みとGameWorld Scoreベンチマークをhttps://github.com/SkyworkAI/Matrix-Gameでオープンソースとして公開する予定である。
English
We introduce Matrix-Game, an interactive world foundation model for
controllable game world generation. Matrix-Game is trained using a two-stage
pipeline that first performs large-scale unlabeled pretraining for environment
understanding, followed by action-labeled training for interactive video
generation. To support this, we curate Matrix-Game-MC, a comprehensive
Minecraft dataset comprising over 2,700 hours of unlabeled gameplay video clips
and over 1,000 hours of high-quality labeled clips with fine-grained keyboard
and mouse action annotations. Our model adopts a controllable image-to-world
generation paradigm, conditioned on a reference image, motion context, and user
actions. With over 17 billion parameters, Matrix-Game enables precise control
over character actions and camera movements, while maintaining high visual
quality and temporal coherence. To evaluate performance, we develop GameWorld
Score, a unified benchmark measuring visual quality, temporal quality, action
controllability, and physical rule understanding for Minecraft world
generation. Extensive experiments show that Matrix-Game consistently
outperforms prior open-source Minecraft world models (including Oasis and
MineWorld) across all metrics, with particularly strong gains in
controllability and physical consistency. Double-blind human evaluations
further confirm the superiority of Matrix-Game, highlighting its ability to
generate perceptually realistic and precisely controllable videos across
diverse game scenarios. To facilitate future research on interactive
image-to-world generation, we will open-source the Matrix-Game model weights
and the GameWorld Score benchmark at https://github.com/SkyworkAI/Matrix-Game.