MUG-V 10B: Hochleistungs-Trainingspipeline für großskalige Videogenerierungsmodelle
MUG-V 10B: High-efficiency Training Pipeline for Large Video Generation Models
October 20, 2025
papers.authors: Yongshun Zhang, Zhongyi Fan, Yonghang Zhang, Zhangzikang Li, Weifeng Chen, Zhongwei Feng, Chaoyue Wang, Peng Hou, Anxiang Zeng
cs.AI
papers.abstract
In den letzten Jahren haben großskalige generative Modelle für visuelle Inhalte (z. B. Bilder, Videos und 3D-Objekte/Szenen) bemerkenswerte Fortschritte erzielt. Die Ausbildung großskaliger Videogenerationsmodelle bleibt jedoch aufgrund der cross-modalen Text-Video-Ausrichtung, der langen Sequenzen und der komplexen raumzeitlichen Abhängigkeiten besonders herausfordernd und ressourcenintensiv. Um diese Herausforderungen zu bewältigen, präsentieren wir ein Trainingsframework, das vier Säulen optimiert: (i) Datenverarbeitung, (ii) Modellarchitektur, (iii) Trainingsstrategie und (iv) Infrastruktur für großskalige Videogenerationsmodelle. Diese Optimierungen führten zu erheblichen Effizienzsteigerungen und Leistungsverbesserungen in allen Phasen der Datenvorverarbeitung, Videokompression, Parameterskalierung, curriculumbasierten Vorausbildung und ausrichtungsfokussierten Nachausbildung. Unser resultierendes Modell, MUG-V 10B, erreicht das Niveau aktueller state-of-the-art Videogeneratoren insgesamt und übertrifft bei e-commerce-orientierten Videogenerationsaufgaben führende Open-Source-Baselines in menschlichen Bewertungen. Noch wichtiger ist, dass wir den gesamten Stack, einschließlich Modellgewichten, Megatron-Core-basiertem großskaligem Trainingscode und Inferenzpipelines für Videogenerierung und -verbesserung, als Open Source veröffentlichen. Unseres Wissens ist dies die erste öffentliche Veröffentlichung von großskaligem Videogenerations-Trainingscode, der Megatron-Core nutzt, um hohe Trainingseffizienz und nahezu lineare Multi-Node-Skalierung zu erreichen. Details sind verfügbar unter https://github.com/Shopee-MUG/MUG-V{unsere Webseite}.
English
In recent years, large-scale generative models for visual content
(e.g., images, videos, and 3D objects/scenes) have made remarkable
progress. However, training large-scale video generation models remains
particularly challenging and resource-intensive due to cross-modal text-video
alignment, the long sequences involved, and the complex spatiotemporal
dependencies. To address these challenges, we present a training framework that
optimizes four pillars: (i) data processing, (ii) model architecture, (iii)
training strategy, and (iv) infrastructure for large-scale video generation
models. These optimizations delivered significant efficiency gains and
performance improvements across all stages of data preprocessing, video
compression, parameter scaling, curriculum-based pretraining, and
alignment-focused post-training. Our resulting model, MUG-V 10B, matches recent
state-of-the-art video generators overall and, on e-commerce-oriented video
generation tasks, surpasses leading open-source baselines in human evaluations.
More importantly, we open-source the complete stack, including model weights,
Megatron-Core-based large-scale training code, and inference pipelines for
video generation and enhancement. To our knowledge, this is the first public
release of large-scale video generation training code that exploits
Megatron-Core to achieve high training efficiency and near-linear multi-node
scaling, details are available in
https://github.com/Shopee-MUG/MUG-V{our webpage}.