ChatPaper.aiChatPaper

Matrix-Game: インタラクティブ世界基盤モデル

Matrix-Game: Interactive World Foundation Model

June 23, 2025
著者: Yifan Zhang, Chunli Peng, Boyang Wang, Puyi Wang, Qingcheng Zhu, Fei Kang, Biao Jiang, Zedong Gao, Eric Li, Yang Liu, Yahui Zhou
cs.AI

要旨

Matrix-Gameを紹介する。これは、制御可能なゲームワールド生成のためのインタラクティブな世界基盤モデルである。Matrix-Gameは、環境理解のための大規模なラベルなし事前学習を行い、その後インタラクティブなビデオ生成のためのアクションラベル付き学習を行う2段階のパイプラインで訓練される。これを支援するため、Matrix-Game-MCという包括的なMinecraftデータセットを構築した。このデータセットには、2,700時間以上のラベルなしゲームプレイ動画クリップと、1,000時間以上の高品質なラベル付きクリップが含まれており、細かいキーボードとマウスのアクションアノテーションが付いている。我々のモデルは、参照画像、モーションコンテキスト、ユーザーアクションを条件とした制御可能な画像からワールド生成パラダイムを採用している。170億以上のパラメータを持つMatrix-Gameは、キャラクターのアクションやカメラの動きを精密に制御しつつ、高い視覚品質と時間的一貫性を維持する。性能を評価するため、Minecraftワールド生成の視覚品質、時間的品質、アクション制御性、物理法則理解を測定する統一ベンチマークであるGameWorld Scoreを開発した。広範な実験により、Matrix-Gameは、すべての指標において既存のオープンソースMinecraftワールドモデル(OasisやMineWorldを含む)を一貫して上回り、特に制御性と物理的一貫性において大きな向上を示した。ダブルブラインドの人間評価もMatrix-Gameの優位性をさらに確認し、多様なゲームシナリオにおいて知覚的に現実的で精密に制御可能なビデオを生成する能力を強調した。インタラクティブな画像からワールド生成の将来の研究を促進するため、Matrix-Gameのモデル重みとGameWorld Scoreベンチマークをhttps://github.com/SkyworkAI/Matrix-Gameでオープンソースとして公開する予定である。
English
We introduce Matrix-Game, an interactive world foundation model for controllable game world generation. Matrix-Game is trained using a two-stage pipeline that first performs large-scale unlabeled pretraining for environment understanding, followed by action-labeled training for interactive video generation. To support this, we curate Matrix-Game-MC, a comprehensive Minecraft dataset comprising over 2,700 hours of unlabeled gameplay video clips and over 1,000 hours of high-quality labeled clips with fine-grained keyboard and mouse action annotations. Our model adopts a controllable image-to-world generation paradigm, conditioned on a reference image, motion context, and user actions. With over 17 billion parameters, Matrix-Game enables precise control over character actions and camera movements, while maintaining high visual quality and temporal coherence. To evaluate performance, we develop GameWorld Score, a unified benchmark measuring visual quality, temporal quality, action controllability, and physical rule understanding for Minecraft world generation. Extensive experiments show that Matrix-Game consistently outperforms prior open-source Minecraft world models (including Oasis and MineWorld) across all metrics, with particularly strong gains in controllability and physical consistency. Double-blind human evaluations further confirm the superiority of Matrix-Game, highlighting its ability to generate perceptually realistic and precisely controllable videos across diverse game scenarios. To facilitate future research on interactive image-to-world generation, we will open-source the Matrix-Game model weights and the GameWorld Score benchmark at https://github.com/SkyworkAI/Matrix-Game.
PDF722June 25, 2025