Matrix-Game: Modelo de Fundação de Mundo Interativo
Matrix-Game: Interactive World Foundation Model
June 23, 2025
Autores: Yifan Zhang, Chunli Peng, Boyang Wang, Puyi Wang, Qingcheng Zhu, Fei Kang, Biao Jiang, Zedong Gao, Eric Li, Yang Liu, Yahui Zhou
cs.AI
Resumo
Apresentamos o Matrix-Game, um modelo de fundação de mundo interativo para geração controlada de mundos de jogos. O Matrix-Game é treinado usando um pipeline de duas etapas que primeiro realiza pré-treinamento em larga escala sem rótulos para compreensão do ambiente, seguido por treinamento com rótulos de ação para geração de vídeo interativo. Para suportar isso, organizamos o Matrix-Game-MC, um conjunto abrangente de dados do Minecraft que compreende mais de 2.700 horas de clipes de vídeo de jogabilidade sem rótulos e mais de 1.000 horas de clipes de alta qualidade com anotações detalhadas de ações de teclado e mouse. Nosso modelo adota um paradigma de geração controlada de imagem para mundo, condicionado a uma imagem de referência, contexto de movimento e ações do usuário. Com mais de 17 bilhões de parâmetros, o Matrix-Game permite controle preciso sobre as ações dos personagens e movimentos da câmera, mantendo alta qualidade visual e coerência temporal. Para avaliar o desempenho, desenvolvemos o GameWorld Score, um benchmark unificado que mede qualidade visual, qualidade temporal, controlabilidade de ações e compreensão das regras físicas para geração de mundos no Minecraft. Experimentos extensivos mostram que o Matrix-Game supera consistentemente modelos anteriores de mundo do Minecraft de código aberto (incluindo Oasis e MineWorld) em todas as métricas, com ganhos particularmente fortes em controlabilidade e consistência física. Avaliações humanas duplamente cegas confirmam ainda mais a superioridade do Matrix-Game, destacando sua capacidade de gerar vídeos perceptualmente realistas e precisamente controláveis em diversos cenários de jogo. Para facilitar pesquisas futuras sobre geração interativa de imagem para mundo, disponibilizaremos os pesos do modelo Matrix-Game e o benchmark GameWorld Score em https://github.com/SkyworkAI/Matrix-Game.
English
We introduce Matrix-Game, an interactive world foundation model for
controllable game world generation. Matrix-Game is trained using a two-stage
pipeline that first performs large-scale unlabeled pretraining for environment
understanding, followed by action-labeled training for interactive video
generation. To support this, we curate Matrix-Game-MC, a comprehensive
Minecraft dataset comprising over 2,700 hours of unlabeled gameplay video clips
and over 1,000 hours of high-quality labeled clips with fine-grained keyboard
and mouse action annotations. Our model adopts a controllable image-to-world
generation paradigm, conditioned on a reference image, motion context, and user
actions. With over 17 billion parameters, Matrix-Game enables precise control
over character actions and camera movements, while maintaining high visual
quality and temporal coherence. To evaluate performance, we develop GameWorld
Score, a unified benchmark measuring visual quality, temporal quality, action
controllability, and physical rule understanding for Minecraft world
generation. Extensive experiments show that Matrix-Game consistently
outperforms prior open-source Minecraft world models (including Oasis and
MineWorld) across all metrics, with particularly strong gains in
controllability and physical consistency. Double-blind human evaluations
further confirm the superiority of Matrix-Game, highlighting its ability to
generate perceptually realistic and precisely controllable videos across
diverse game scenarios. To facilitate future research on interactive
image-to-world generation, we will open-source the Matrix-Game model weights
and the GameWorld Score benchmark at https://github.com/SkyworkAI/Matrix-Game.