매트릭스-게임: 상호작용형 세계 기반 모델
Matrix-Game: Interactive World Foundation Model
June 23, 2025
저자: Yifan Zhang, Chunli Peng, Boyang Wang, Puyi Wang, Qingcheng Zhu, Fei Kang, Biao Jiang, Zedong Gao, Eric Li, Yang Liu, Yahui Zhou
cs.AI
초록
우리는 제어 가능한 게임 세계 생성을 위한 인터랙티브 월드 파운데이션 모델인 Matrix-Game을 소개한다. Matrix-Game은 환경 이해를 위한 대규모 비지도 사전 학습을 수행한 후, 인터랙티브 비디오 생성을 위한 액션 레이블 학습을 진행하는 두 단계 파이프라인으로 훈련된다. 이를 지원하기 위해, 2,700시간 이상의 비지도 게임플레이 비디오 클립과 1,000시간 이상의 고품질 레이블 클립(세분화된 키보드 및 마우스 액션 주석 포함)으로 구성된 포괄적인 Minecraft 데이터셋인 Matrix-Game-MC를 구축했다. 우리의 모델은 참조 이미지, 모션 컨텍스트, 사용자 액션을 조건으로 하는 제어 가능한 이미지-투-월드 생성 패러다임을 채택한다. 170억 개 이상의 파라미터를 가진 Matrix-Game은 캐릭터 액션과 카메라 이동을 정밀하게 제어하면서도 높은 시각적 품질과 시간적 일관성을 유지한다. 성능 평가를 위해, Minecraft 세계 생성을 위한 시각적 품질, 시간적 품질, 액션 제어 가능성, 물리적 규칙 이해를 측정하는 통합 벤치마크인 GameWorld Score를 개발했다. 광범위한 실험 결과, Matrix-Game은 모든 지표에서 기존 오픈소스 Minecraft 세계 모델(Oasis 및 MineWorld 포함)을 지속적으로 능가하며, 특히 제어 가능성과 물리적 일관성에서 큰 향상을 보였다. 이중 맹검 인간 평가는 Matrix-Game의 우수성을 추가로 확인하며, 다양한 게임 시나리오에서 지각적으로 현실적이고 정밀하게 제어 가능한 비디오를 생성하는 능력을 강조한다. 인터랙티브 이미지-투-월드 생성에 대한 미래 연구를 촉진하기 위해, Matrix-Game 모델 가중치와 GameWorld Score 벤치마크를 https://github.com/SkyworkAI/Matrix-Game에서 오픈소스로 공개할 예정이다.
English
We introduce Matrix-Game, an interactive world foundation model for
controllable game world generation. Matrix-Game is trained using a two-stage
pipeline that first performs large-scale unlabeled pretraining for environment
understanding, followed by action-labeled training for interactive video
generation. To support this, we curate Matrix-Game-MC, a comprehensive
Minecraft dataset comprising over 2,700 hours of unlabeled gameplay video clips
and over 1,000 hours of high-quality labeled clips with fine-grained keyboard
and mouse action annotations. Our model adopts a controllable image-to-world
generation paradigm, conditioned on a reference image, motion context, and user
actions. With over 17 billion parameters, Matrix-Game enables precise control
over character actions and camera movements, while maintaining high visual
quality and temporal coherence. To evaluate performance, we develop GameWorld
Score, a unified benchmark measuring visual quality, temporal quality, action
controllability, and physical rule understanding for Minecraft world
generation. Extensive experiments show that Matrix-Game consistently
outperforms prior open-source Minecraft world models (including Oasis and
MineWorld) across all metrics, with particularly strong gains in
controllability and physical consistency. Double-blind human evaluations
further confirm the superiority of Matrix-Game, highlighting its ability to
generate perceptually realistic and precisely controllable videos across
diverse game scenarios. To facilitate future research on interactive
image-to-world generation, we will open-source the Matrix-Game model weights
and the GameWorld Score benchmark at https://github.com/SkyworkAI/Matrix-Game.