ChatPaper.aiChatPaper

MUG-V 10B : Pipeline d'entraînement à haute efficacité pour les modèles de génération de vidéos à grande échelle

MUG-V 10B: High-efficiency Training Pipeline for Large Video Generation Models

October 20, 2025
papers.authors: Yongshun Zhang, Zhongyi Fan, Yonghang Zhang, Zhangzikang Li, Weifeng Chen, Zhongwei Feng, Chaoyue Wang, Peng Hou, Anxiang Zeng
cs.AI

papers.abstract

Ces dernières années, les modèles génératifs à grande échelle pour le contenu visuel (par exemple, les images, les vidéos et les objets/scènes 3D) ont réalisé des progrès remarquables. Cependant, l'entraînement de modèles de génération de vidéos à grande échelle reste particulièrement difficile et gourmand en ressources en raison de l'alignement intermodal texte-vidéo, des longues séquences impliquées et des dépendances spatio-temporelles complexes. Pour relever ces défis, nous présentons un cadre d'entraînement qui optimise quatre piliers : (i) le traitement des données, (ii) l'architecture du modèle, (iii) la stratégie d'entraînement et (iv) l'infrastructure pour les modèles de génération de vidéos à grande échelle. Ces optimisations ont permis des gains d'efficacité significatifs et des améliorations de performance à toutes les étapes du prétraitement des données, de la compression vidéo, de la mise à l'échelle des paramètres, du pré-entraînement basé sur un curriculum et du post-entraînement axé sur l'alignement. Notre modèle résultant, MUG-V 10B, rivalise avec les générateurs de vidéos les plus récents et, sur des tâches de génération de vidéos orientées commerce électronique, surpasse les meilleurs modèles de référence open-source dans les évaluations humaines. Plus important encore, nous mettons à disposition l'ensemble de la pile, y compris les poids du modèle, le code d'entraînement à grande échelle basé sur Megatron-Core, et les pipelines d'inférence pour la génération et l'amélioration de vidéos. À notre connaissance, il s'agit de la première publication publique de code d'entraînement pour la génération de vidéos à grande échelle exploitant Megatron-Core pour atteindre une efficacité d'entraînement élevée et une mise à l'échelle multi-nœud quasi-linéaire. Les détails sont disponibles sur https://github.com/Shopee-MUG/MUG-V{notre page web}.
English
In recent years, large-scale generative models for visual content (e.g., images, videos, and 3D objects/scenes) have made remarkable progress. However, training large-scale video generation models remains particularly challenging and resource-intensive due to cross-modal text-video alignment, the long sequences involved, and the complex spatiotemporal dependencies. To address these challenges, we present a training framework that optimizes four pillars: (i) data processing, (ii) model architecture, (iii) training strategy, and (iv) infrastructure for large-scale video generation models. These optimizations delivered significant efficiency gains and performance improvements across all stages of data preprocessing, video compression, parameter scaling, curriculum-based pretraining, and alignment-focused post-training. Our resulting model, MUG-V 10B, matches recent state-of-the-art video generators overall and, on e-commerce-oriented video generation tasks, surpasses leading open-source baselines in human evaluations. More importantly, we open-source the complete stack, including model weights, Megatron-Core-based large-scale training code, and inference pipelines for video generation and enhancement. To our knowledge, this is the first public release of large-scale video generation training code that exploits Megatron-Core to achieve high training efficiency and near-linear multi-node scaling, details are available in https://github.com/Shopee-MUG/MUG-V{our webpage}.
PDF92October 22, 2025