MUG-V 10B: Hoogrenderende trainingspijplijn voor grootschalige videogeneratiemodellen
MUG-V 10B: High-efficiency Training Pipeline for Large Video Generation Models
October 20, 2025
Auteurs: Yongshun Zhang, Zhongyi Fan, Yonghang Zhang, Zhangzikang Li, Weifeng Chen, Zhongwei Feng, Chaoyue Wang, Peng Hou, Anxiang Zeng
cs.AI
Samenvatting
De afgelopen jaren hebben grootschalige generatieve modellen voor visuele inhoud (bijvoorbeeld afbeeldingen, video's en 3D-objecten/scènes) opmerkelijke vooruitgang geboekt. Het trainen van grootschalige videogeneratiemodellen blijft echter bijzonder uitdagend en resource-intensief vanwege de cross-modale tekst-video-uitlijning, de lange sequenties die betrokken zijn en de complexe spatiotemporele afhankelijkheden. Om deze uitdagingen aan te pakken, presenteren we een trainingsraamwerk dat vier pijlers optimaliseert: (i) gegevensverwerking, (ii) modelarchitectuur, (iii) trainingsstrategie en (iv) infrastructuur voor grootschalige videogeneratiemodellen. Deze optimalisaties leverden aanzienlijke efficiëntiewinsten en prestatieverbeteringen op in alle fasen van gegevensvoorbewerking, videocompressie, parameterschaling, curriculumgebaseerde voorpretraining en uitlijning-gerichte napretraining. Ons resulterende model, MUG-V 10B, evenaart recente state-of-the-art videogeneratoren in het algemeen en overtreft toonaangevende open-source-baselines in menselijke evaluaties voor e-commerce-gerichte videogeneratietaken. Belangrijker is dat we de volledige stack open-source maken, inclusief modelgewichten, grootschalige trainingscode gebaseerd op Megatron-Core en inferentiepijplijnen voor videogeneratie en -verbetering. Voor zover wij weten, is dit de eerste openbare release van grootschalige videogeneratietrainingscode die gebruikmaakt van Megatron-Core om hoge trainingsefficiëntie en bijna-lineaire multi-node-schaling te bereiken. Details zijn beschikbaar op https://github.com/Shopee-MUG/MUG-V{onze webpagina}.
English
In recent years, large-scale generative models for visual content
(e.g., images, videos, and 3D objects/scenes) have made remarkable
progress. However, training large-scale video generation models remains
particularly challenging and resource-intensive due to cross-modal text-video
alignment, the long sequences involved, and the complex spatiotemporal
dependencies. To address these challenges, we present a training framework that
optimizes four pillars: (i) data processing, (ii) model architecture, (iii)
training strategy, and (iv) infrastructure for large-scale video generation
models. These optimizations delivered significant efficiency gains and
performance improvements across all stages of data preprocessing, video
compression, parameter scaling, curriculum-based pretraining, and
alignment-focused post-training. Our resulting model, MUG-V 10B, matches recent
state-of-the-art video generators overall and, on e-commerce-oriented video
generation tasks, surpasses leading open-source baselines in human evaluations.
More importantly, we open-source the complete stack, including model weights,
Megatron-Core-based large-scale training code, and inference pipelines for
video generation and enhancement. To our knowledge, this is the first public
release of large-scale video generation training code that exploits
Megatron-Core to achieve high training efficiency and near-linear multi-node
scaling, details are available in
https://github.com/Shopee-MUG/MUG-V{our webpage}.