ChatPaper.aiChatPaper

Matrix-Game 2.0: 오픈소스, 실시간, 스트리밍 인터랙티브 월드 모델

Matrix-Game 2.0: An Open-Source, Real-Time, and Streaming Interactive World Model

August 18, 2025
저자: Xianglong He, Chunli Peng, Zexiang Liu, Boyang Wang, Yifan Zhang, Qi Cui, Fei Kang, Biao Jiang, Mengyin An, Yangyang Ren, Baixin Xu, Hao-Xiang Guo, Kaixiong Gong, Cyrus Wu, Wei Li, Xuchen Song, Yang Liu, Eric Li, Yahui Zhou
cs.AI

초록

최근 인터랙티브 비디오 생성 분야의 발전은 확산 모델이 복잡한 물리적 역학과 상호작용 행동을 포착함으로써 세계 모델로서의 잠재력을 입증했습니다. 그러나 기존의 인터랙티브 세계 모델은 양방향 주의 메커니즘과 긴 추론 단계에 의존하기 때문에 실시간 성능이 심각하게 제한됩니다. 결과적으로, 이러한 모델들은 역사적 맥락과 현재 행동에 기반하여 결과가 즉시 업데이트되어야 하는 실제 세계의 역학을 시뮬레이션하기 어렵습니다. 이를 해결하기 위해, 우리는 Matrix-Game 2.0을 제안합니다. 이 인터랙티브 세계 모델은 몇 단계의 자기회귀적 확산을 통해 즉석에서 긴 비디오를 생성합니다. 우리의 프레임워크는 세 가지 주요 구성 요소로 이루어져 있습니다: (1) Unreal Engine과 GTA5 환경을 위한 확장 가능한 데이터 생산 파이프라인으로, 다양한 상호작용 주석이 포함된 대량의 비디오 데이터(약 1200시간)를 효과적으로 생성합니다; (2) 프레임 단위의 마우스 및 키보드 입력을 상호작용 조건으로 활성화하는 액션 주입 모듈; (3) 실시간 및 스트리밍 비디오 생성을 위한 인과적 아키텍처 기반의 몇 단계 증류. Matrix Game 2.0은 다양한 장면에서 초고속 25 FPS로 고품질의 분 단위 비디오를 생성할 수 있습니다. 우리는 인터랙티브 세계 모델링 연구를 발전시키기 위해 모델 가중치와 코드베이스를 오픈소스로 공개합니다.
English
Recent advances in interactive video generations have demonstrated diffusion model's potential as world models by capturing complex physical dynamics and interactive behaviors. However, existing interactive world models depend on bidirectional attention and lengthy inference steps, severely limiting real-time performance. Consequently, they are hard to simulate real-world dynamics, where outcomes must update instantaneously based on historical context and current actions. To address this, we present Matrix-Game 2.0, an interactive world model generates long videos on-the-fly via few-step auto-regressive diffusion. Our framework consists of three key components: (1) A scalable data production pipeline for Unreal Engine and GTA5 environments to effectively produce massive amounts (about 1200 hours) of video data with diverse interaction annotations; (2) An action injection module that enables frame-level mouse and keyboard inputs as interactive conditions; (3) A few-step distillation based on the casual architecture for real-time and streaming video generation. Matrix Game 2.0 can generate high-quality minute-level videos across diverse scenes at an ultra-fast speed of 25 FPS. We open-source our model weights and codebase to advance research in interactive world modeling.
PDF162August 19, 2025