MUG-V 10B: Pipeline de Treinamento de Alta Eficiência para Modelos de Geração de Vídeos em Grande Escala
MUG-V 10B: High-efficiency Training Pipeline for Large Video Generation Models
October 20, 2025
Autores: Yongshun Zhang, Zhongyi Fan, Yonghang Zhang, Zhangzikang Li, Weifeng Chen, Zhongwei Feng, Chaoyue Wang, Peng Hou, Anxiang Zeng
cs.AI
Resumo
Nos últimos anos, modelos generativos em larga escala para conteúdo visual (por exemplo, imagens, vídeos e objetos/cenas 3D) tiveram progressos notáveis. No entanto, o treinamento de modelos de geração de vídeo em larga escala continua sendo particularmente desafiador e intensivo em recursos devido ao alinhamento multimodal texto-vídeo, às longas sequências envolvidas e às complexas dependências espaço-temporais. Para enfrentar esses desafios, apresentamos uma estrutura de treinamento que otimiza quatro pilares: (i) processamento de dados, (ii) arquitetura do modelo, (iii) estratégia de treinamento e (iv) infraestrutura para modelos de geração de vídeo em larga escala. Essas otimizações resultaram em ganhos significativos de eficiência e melhorias de desempenho em todas as etapas de pré-processamento de dados, compressão de vídeo, escalonamento de parâmetros, pré-treinamento baseado em currículo e pós-treinamento focado em alinhamento. Nosso modelo resultante, MUG-V 10B, iguala os geradores de vídeo mais recentes de ponta em geral e, em tarefas de geração de vídeo orientadas para e-commerce, supera as principais baselines de código aberto em avaliações humanas. Mais importante, disponibilizamos a pilha completa em código aberto, incluindo os pesos do modelo, o código de treinamento em larga escala baseado no Megatron-Core e pipelines de inferência para geração e aprimoramento de vídeo. Até onde sabemos, esta é a primeira liberação pública de código de treinamento para geração de vídeo em larga escala que explora o Megatron-Core para alcançar alta eficiência de treinamento e escalonamento quase linear em múltiplos nós. Detalhes estão disponíveis em https://github.com/Shopee-MUG/MUG-V{nossa página}.
English
In recent years, large-scale generative models for visual content
(e.g., images, videos, and 3D objects/scenes) have made remarkable
progress. However, training large-scale video generation models remains
particularly challenging and resource-intensive due to cross-modal text-video
alignment, the long sequences involved, and the complex spatiotemporal
dependencies. To address these challenges, we present a training framework that
optimizes four pillars: (i) data processing, (ii) model architecture, (iii)
training strategy, and (iv) infrastructure for large-scale video generation
models. These optimizations delivered significant efficiency gains and
performance improvements across all stages of data preprocessing, video
compression, parameter scaling, curriculum-based pretraining, and
alignment-focused post-training. Our resulting model, MUG-V 10B, matches recent
state-of-the-art video generators overall and, on e-commerce-oriented video
generation tasks, surpasses leading open-source baselines in human evaluations.
More importantly, we open-source the complete stack, including model weights,
Megatron-Core-based large-scale training code, and inference pipelines for
video generation and enhancement. To our knowledge, this is the first public
release of large-scale video generation training code that exploits
Megatron-Core to achieve high training efficiency and near-linear multi-node
scaling, details are available in
https://github.com/Shopee-MUG/MUG-V{our webpage}.