ChatPaper.aiChatPaper

MUG-V 10B: Hoogrenderende trainingspijplijn voor grootschalige videogeneratiemodellen

MUG-V 10B: High-efficiency Training Pipeline for Large Video Generation Models

October 20, 2025
Auteurs: Yongshun Zhang, Zhongyi Fan, Yonghang Zhang, Zhangzikang Li, Weifeng Chen, Zhongwei Feng, Chaoyue Wang, Peng Hou, Anxiang Zeng
cs.AI

Samenvatting

De afgelopen jaren hebben grootschalige generatieve modellen voor visuele inhoud (bijvoorbeeld afbeeldingen, video's en 3D-objecten/scènes) opmerkelijke vooruitgang geboekt. Het trainen van grootschalige videogeneratiemodellen blijft echter bijzonder uitdagend en resource-intensief vanwege de cross-modale tekst-video-uitlijning, de lange sequenties die betrokken zijn en de complexe spatiotemporele afhankelijkheden. Om deze uitdagingen aan te pakken, presenteren we een trainingsraamwerk dat vier pijlers optimaliseert: (i) gegevensverwerking, (ii) modelarchitectuur, (iii) trainingsstrategie en (iv) infrastructuur voor grootschalige videogeneratiemodellen. Deze optimalisaties leverden aanzienlijke efficiëntiewinsten en prestatieverbeteringen op in alle fasen van gegevensvoorbewerking, videocompressie, parameterschaling, curriculumgebaseerde voorpretraining en uitlijning-gerichte napretraining. Ons resulterende model, MUG-V 10B, evenaart recente state-of-the-art videogeneratoren in het algemeen en overtreft toonaangevende open-source-baselines in menselijke evaluaties voor e-commerce-gerichte videogeneratietaken. Belangrijker is dat we de volledige stack open-source maken, inclusief modelgewichten, grootschalige trainingscode gebaseerd op Megatron-Core en inferentiepijplijnen voor videogeneratie en -verbetering. Voor zover wij weten, is dit de eerste openbare release van grootschalige videogeneratietrainingscode die gebruikmaakt van Megatron-Core om hoge trainingsefficiëntie en bijna-lineaire multi-node-schaling te bereiken. Details zijn beschikbaar op https://github.com/Shopee-MUG/MUG-V{onze webpagina}.
English
In recent years, large-scale generative models for visual content (e.g., images, videos, and 3D objects/scenes) have made remarkable progress. However, training large-scale video generation models remains particularly challenging and resource-intensive due to cross-modal text-video alignment, the long sequences involved, and the complex spatiotemporal dependencies. To address these challenges, we present a training framework that optimizes four pillars: (i) data processing, (ii) model architecture, (iii) training strategy, and (iv) infrastructure for large-scale video generation models. These optimizations delivered significant efficiency gains and performance improvements across all stages of data preprocessing, video compression, parameter scaling, curriculum-based pretraining, and alignment-focused post-training. Our resulting model, MUG-V 10B, matches recent state-of-the-art video generators overall and, on e-commerce-oriented video generation tasks, surpasses leading open-source baselines in human evaluations. More importantly, we open-source the complete stack, including model weights, Megatron-Core-based large-scale training code, and inference pipelines for video generation and enhancement. To our knowledge, this is the first public release of large-scale video generation training code that exploits Megatron-Core to achieve high training efficiency and near-linear multi-node scaling, details are available in https://github.com/Shopee-MUG/MUG-V{our webpage}.
PDF92October 22, 2025