ChatPaper.aiChatPaper

Matrix-Game 2.0: Un Modello di Mondo Interattivo Open-Source, in Tempo Reale e in Streaming

Matrix-Game 2.0: An Open-Source, Real-Time, and Streaming Interactive World Model

August 18, 2025
Autori: Xianglong He, Chunli Peng, Zexiang Liu, Boyang Wang, Yifan Zhang, Qi Cui, Fei Kang, Biao Jiang, Mengyin An, Yangyang Ren, Baixin Xu, Hao-Xiang Guo, Kaixiong Gong, Cyrus Wu, Wei Li, Xuchen Song, Yang Liu, Eric Li, Yahui Zhou
cs.AI

Abstract

I recenti progressi nella generazione di video interattivi hanno dimostrato il potenziale dei modelli di diffusione come modelli del mondo, catturando dinamiche fisiche complesse e comportamenti interattivi. Tuttavia, gli attuali modelli interattivi del mondo dipendono da un'attenzione bidirezionale e da passaggi di inferenza prolungati, limitando gravemente le prestazioni in tempo reale. Di conseguenza, risulta difficile simulare le dinamiche del mondo reale, dove i risultati devono aggiornarsi istantaneamente in base al contesto storico e alle azioni correnti. Per affrontare questo problema, presentiamo Matrix-Game 2.0, un modello interattivo del mondo che genera video lunghi al volo attraverso una diffusione auto-regressiva a pochi passaggi. Il nostro framework è composto da tre componenti chiave: (1) Una pipeline scalabile per la produzione di dati negli ambienti Unreal Engine e GTA5, in grado di produrre efficacemente grandi quantità (circa 1200 ore) di dati video con annotazioni di interazione diversificate; (2) Un modulo di iniezione di azioni che consente input di mouse e tastiera a livello di frame come condizioni interattive; (3) Una distillazione a pochi passaggi basata sull'architettura causale per la generazione di video in tempo reale e in streaming. Matrix-Game 2.0 può generare video di alta qualità a livello di minuti in diverse scene a una velocità ultra-rapida di 25 FPS. Rendiamo open-source i pesi del nostro modello e il codice per promuovere la ricerca nella modellazione interattiva del mondo.
English
Recent advances in interactive video generations have demonstrated diffusion model's potential as world models by capturing complex physical dynamics and interactive behaviors. However, existing interactive world models depend on bidirectional attention and lengthy inference steps, severely limiting real-time performance. Consequently, they are hard to simulate real-world dynamics, where outcomes must update instantaneously based on historical context and current actions. To address this, we present Matrix-Game 2.0, an interactive world model generates long videos on-the-fly via few-step auto-regressive diffusion. Our framework consists of three key components: (1) A scalable data production pipeline for Unreal Engine and GTA5 environments to effectively produce massive amounts (about 1200 hours) of video data with diverse interaction annotations; (2) An action injection module that enables frame-level mouse and keyboard inputs as interactive conditions; (3) A few-step distillation based on the casual architecture for real-time and streaming video generation. Matrix Game 2.0 can generate high-quality minute-level videos across diverse scenes at an ultra-fast speed of 25 FPS. We open-source our model weights and codebase to advance research in interactive world modeling.
PDF252August 19, 2025