MUG-V 10B: 大規模動画生成モデルのための高効率トレーニングパイプライン
MUG-V 10B: High-efficiency Training Pipeline for Large Video Generation Models
October 20, 2025
著者: Yongshun Zhang, Zhongyi Fan, Yonghang Zhang, Zhangzikang Li, Weifeng Chen, Zhongwei Feng, Chaoyue Wang, Peng Hou, Anxiang Zeng
cs.AI
要旨
近年、視覚コンテンツ(例えば、画像、動画、3Dオブジェクト/シーン)の大規模生成モデルが著しい進展を遂げている。しかし、大規模な動画生成モデルの訓練は、テキストと動画のクロスモーダルな整合性、長いシーケンス、複雑な時空間依存性のため、特に困難でリソース集約的である。これらの課題に対処するため、我々はデータ処理、モデルアーキテクチャ、訓練戦略、および大規模動画生成モデルのインフラストラクチャという4つの柱を最適化する訓練フレームワークを提案する。これらの最適化により、データ前処理、動画圧縮、パラメータスケーリング、カリキュラムベースの事前訓練、整合性に焦点を当てた事後訓練の全ての段階において、効率性と性能が大幅に向上した。結果として得られたモデル、MUG-V 10Bは、全体的に最近の最先端の動画生成器に匹敵し、eコマース指向の動画生成タスクにおいては、人間評価で主要なオープンソースベースラインを上回った。さらに重要なことに、モデル重み、Megatron-Coreベースの大規模訓練コード、動画生成および強化のための推論パイプラインを含む完全なスタックをオープンソース化した。我々の知る限り、これはMegatron-Coreを活用して高い訓練効率とほぼ線形のマルチノードスケーリングを実現する大規模動画生成訓練コードの初の公開リリースである。詳細はhttps://github.com/Shopee-MUG/MUG-V{我々のウェブページ}で確認できる。
English
In recent years, large-scale generative models for visual content
(e.g., images, videos, and 3D objects/scenes) have made remarkable
progress. However, training large-scale video generation models remains
particularly challenging and resource-intensive due to cross-modal text-video
alignment, the long sequences involved, and the complex spatiotemporal
dependencies. To address these challenges, we present a training framework that
optimizes four pillars: (i) data processing, (ii) model architecture, (iii)
training strategy, and (iv) infrastructure for large-scale video generation
models. These optimizations delivered significant efficiency gains and
performance improvements across all stages of data preprocessing, video
compression, parameter scaling, curriculum-based pretraining, and
alignment-focused post-training. Our resulting model, MUG-V 10B, matches recent
state-of-the-art video generators overall and, on e-commerce-oriented video
generation tasks, surpasses leading open-source baselines in human evaluations.
More importantly, we open-source the complete stack, including model weights,
Megatron-Core-based large-scale training code, and inference pipelines for
video generation and enhancement. To our knowledge, this is the first public
release of large-scale video generation training code that exploits
Megatron-Core to achieve high training efficiency and near-linear multi-node
scaling, details are available in
https://github.com/Shopee-MUG/MUG-V{our webpage}.