MUG-V 10B: Hoogrenderende trainingspijplijn voor grootschalige videogeneratiemodellen

Samenvatting

De afgelopen jaren hebben grootschalige generatieve modellen voor visuele inhoud (bijvoorbeeld afbeeldingen, video's en 3D-objecten/scènes) opmerkelijke vooruitgang geboekt. Het trainen van grootschalige videogeneratiemodellen blijft echter bijzonder uitdagend en resource-intensief vanwege de cross-modale tekst-video-uitlijning, de lange sequenties die betrokken zijn en de complexe spatiotemporele afhankelijkheden. Om deze uitdagingen aan te pakken, presenteren we een trainingsraamwerk dat vier pijlers optimaliseert: (i) gegevensverwerking, (ii) modelarchitectuur, (iii) trainingsstrategie en (iv) infrastructuur voor grootschalige videogeneratiemodellen. Deze optimalisaties leverden aanzienlijke efficiëntiewinsten en prestatieverbeteringen op in alle fasen van gegevensvoorbewerking, videocompressie, parameterschaling, curriculumgebaseerde voorpretraining en uitlijning-gerichte napretraining. Ons resulterende model, MUG-V 10B, evenaart recente state-of-the-art videogeneratoren in het algemeen en overtreft toonaangevende open-source-baselines in menselijke evaluaties voor e-commerce-gerichte videogeneratietaken. Belangrijker is dat we de volledige stack open-source maken, inclusief modelgewichten, grootschalige trainingscode gebaseerd op Megatron-Core en inferentiepijplijnen voor videogeneratie en -verbetering. Voor zover wij weten, is dit de eerste openbare release van grootschalige videogeneratietrainingscode die gebruikmaakt van Megatron-Core om hoge trainingsefficiëntie en bijna-lineaire multi-node-schaling te bereiken. Details zijn beschikbaar op https://github.com/Shopee-MUG/MUG-V{onze webpagina}.

English

In recent years, large-scale generative models for visual content (e.g., images, videos, and 3D objects/scenes) have made remarkable progress. However, training large-scale video generation models remains particularly challenging and resource-intensive due to cross-modal text-video alignment, the long sequences involved, and the complex spatiotemporal dependencies. To address these challenges, we present a training framework that optimizes four pillars: (i) data processing, (ii) model architecture, (iii) training strategy, and (iv) infrastructure for large-scale video generation models. These optimizations delivered significant efficiency gains and performance improvements across all stages of data preprocessing, video compression, parameter scaling, curriculum-based pretraining, and alignment-focused post-training. Our resulting model, MUG-V 10B, matches recent state-of-the-art video generators overall and, on e-commerce-oriented video generation tasks, surpasses leading open-source baselines in human evaluations. More importantly, we open-source the complete stack, including model weights, Megatron-Core-based large-scale training code, and inference pipelines for video generation and enhancement. To our knowledge, this is the first public release of large-scale video generation training code that exploits Megatron-Core to achieve high training efficiency and near-linear multi-node scaling, details are available in https://github.com/Shopee-MUG/MUG-V{our webpage}.

MUG-V 10B: Hoogrenderende trainingspijplijn voor grootschalige videogeneratiemodellen

MUG-V 10B: High-efficiency Training Pipeline for Large Video Generation Models

Samenvatting

Support