Matrix-Game: Interaktives Weltgrundlagenmodell
Matrix-Game: Interactive World Foundation Model
June 23, 2025
Autoren: Yifan Zhang, Chunli Peng, Boyang Wang, Puyi Wang, Qingcheng Zhu, Fei Kang, Biao Jiang, Zedong Gao, Eric Li, Yang Liu, Yahui Zhou
cs.AI
Zusammenfassung
Wir stellen Matrix-Game vor, ein interaktives Weltgrundlagenmodell zur kontrollierbaren Generierung von Spielwelten. Matrix-Game wird in einem zweistufigen Pipeline-Verfahren trainiert, das zunächst ein groß angelegtes, unüberwachtes Vortraining zur Umgebungsverständigung durchführt, gefolgt von einem aktionsbeschrifteten Training zur interaktiven Videogenerierung. Um dies zu unterstützen, haben wir Matrix-Game-MC kuratiert, einen umfassenden Minecraft-Datensatz, der über 2.700 Stunden unmarkierte Gameplay-Videoclips und mehr als 1.000 Stunden hochwertige, mit feingranularen Tastatur- und Mausaktionen annotierte Clips umfasst. Unser Modell folgt einem kontrollierbaren Bild-zu-Welt-Generierungsparadigma, das auf einem Referenzbild, einem Bewegungskontext und Benutzeraktionen basiert. Mit über 17 Milliarden Parametern ermöglicht Matrix-Game eine präzise Steuerung von Charakteraktionen und Kamerabewegungen bei gleichbleibend hoher visueller Qualität und zeitlicher Kohärenz. Zur Leistungsbewertung entwickeln wir GameWorld Score, einen einheitlichen Benchmark, der visuelle Qualität, zeitliche Qualität, Aktionskontrollierbarkeit und das Verständnis physikalischer Regeln für die Minecraft-Weltgenerierung misst. Umfangreiche Experimente zeigen, dass Matrix-Game durchweg alle bisherigen Open-Source-Minecraft-Weltmodelle (einschließlich Oasis und MineWorld) in allen Metriken übertrifft, mit besonders deutlichen Verbesserungen in der Kontrollierbarkeit und physikalischen Konsistenz. Doppelblind durchgeführte menschliche Bewertungen bestätigen weiterhin die Überlegenheit von Matrix-Game und unterstreichen seine Fähigkeit, wahrnehmungsrealistische und präzise steuerbare Videos in diversen Spielszenarien zu generieren. Um zukünftige Forschungen zur interaktiven Bild-zu-Welt-Generierung zu erleichtern, werden wir die Matrix-Game-Modellgewichte und den GameWorld Score-Benchmark unter https://github.com/SkyworkAI/Matrix-Game open-source zur Verfügung stellen.
English
We introduce Matrix-Game, an interactive world foundation model for
controllable game world generation. Matrix-Game is trained using a two-stage
pipeline that first performs large-scale unlabeled pretraining for environment
understanding, followed by action-labeled training for interactive video
generation. To support this, we curate Matrix-Game-MC, a comprehensive
Minecraft dataset comprising over 2,700 hours of unlabeled gameplay video clips
and over 1,000 hours of high-quality labeled clips with fine-grained keyboard
and mouse action annotations. Our model adopts a controllable image-to-world
generation paradigm, conditioned on a reference image, motion context, and user
actions. With over 17 billion parameters, Matrix-Game enables precise control
over character actions and camera movements, while maintaining high visual
quality and temporal coherence. To evaluate performance, we develop GameWorld
Score, a unified benchmark measuring visual quality, temporal quality, action
controllability, and physical rule understanding for Minecraft world
generation. Extensive experiments show that Matrix-Game consistently
outperforms prior open-source Minecraft world models (including Oasis and
MineWorld) across all metrics, with particularly strong gains in
controllability and physical consistency. Double-blind human evaluations
further confirm the superiority of Matrix-Game, highlighting its ability to
generate perceptually realistic and precisely controllable videos across
diverse game scenarios. To facilitate future research on interactive
image-to-world generation, we will open-source the Matrix-Game model weights
and the GameWorld Score benchmark at https://github.com/SkyworkAI/Matrix-Game.