ChatPaper.aiChatPaper

Matrix-Game: Modelo de Fundação de Mundo Interativo

Matrix-Game: Interactive World Foundation Model

June 23, 2025
Autores: Yifan Zhang, Chunli Peng, Boyang Wang, Puyi Wang, Qingcheng Zhu, Fei Kang, Biao Jiang, Zedong Gao, Eric Li, Yang Liu, Yahui Zhou
cs.AI

Resumo

Apresentamos o Matrix-Game, um modelo de fundação de mundo interativo para geração controlada de mundos de jogos. O Matrix-Game é treinado usando um pipeline de duas etapas que primeiro realiza pré-treinamento em larga escala sem rótulos para compreensão do ambiente, seguido por treinamento com rótulos de ação para geração de vídeo interativo. Para suportar isso, organizamos o Matrix-Game-MC, um conjunto abrangente de dados do Minecraft que compreende mais de 2.700 horas de clipes de vídeo de jogabilidade sem rótulos e mais de 1.000 horas de clipes de alta qualidade com anotações detalhadas de ações de teclado e mouse. Nosso modelo adota um paradigma de geração controlada de imagem para mundo, condicionado a uma imagem de referência, contexto de movimento e ações do usuário. Com mais de 17 bilhões de parâmetros, o Matrix-Game permite controle preciso sobre as ações dos personagens e movimentos da câmera, mantendo alta qualidade visual e coerência temporal. Para avaliar o desempenho, desenvolvemos o GameWorld Score, um benchmark unificado que mede qualidade visual, qualidade temporal, controlabilidade de ações e compreensão das regras físicas para geração de mundos no Minecraft. Experimentos extensivos mostram que o Matrix-Game supera consistentemente modelos anteriores de mundo do Minecraft de código aberto (incluindo Oasis e MineWorld) em todas as métricas, com ganhos particularmente fortes em controlabilidade e consistência física. Avaliações humanas duplamente cegas confirmam ainda mais a superioridade do Matrix-Game, destacando sua capacidade de gerar vídeos perceptualmente realistas e precisamente controláveis em diversos cenários de jogo. Para facilitar pesquisas futuras sobre geração interativa de imagem para mundo, disponibilizaremos os pesos do modelo Matrix-Game e o benchmark GameWorld Score em https://github.com/SkyworkAI/Matrix-Game.
English
We introduce Matrix-Game, an interactive world foundation model for controllable game world generation. Matrix-Game is trained using a two-stage pipeline that first performs large-scale unlabeled pretraining for environment understanding, followed by action-labeled training for interactive video generation. To support this, we curate Matrix-Game-MC, a comprehensive Minecraft dataset comprising over 2,700 hours of unlabeled gameplay video clips and over 1,000 hours of high-quality labeled clips with fine-grained keyboard and mouse action annotations. Our model adopts a controllable image-to-world generation paradigm, conditioned on a reference image, motion context, and user actions. With over 17 billion parameters, Matrix-Game enables precise control over character actions and camera movements, while maintaining high visual quality and temporal coherence. To evaluate performance, we develop GameWorld Score, a unified benchmark measuring visual quality, temporal quality, action controllability, and physical rule understanding for Minecraft world generation. Extensive experiments show that Matrix-Game consistently outperforms prior open-source Minecraft world models (including Oasis and MineWorld) across all metrics, with particularly strong gains in controllability and physical consistency. Double-blind human evaluations further confirm the superiority of Matrix-Game, highlighting its ability to generate perceptually realistic and precisely controllable videos across diverse game scenarios. To facilitate future research on interactive image-to-world generation, we will open-source the Matrix-Game model weights and the GameWorld Score benchmark at https://github.com/SkyworkAI/Matrix-Game.
PDF612June 25, 2025