MUG-V 10B: Tubería de Entrenamiento de Alta Eficiencia para Modelos de Generación de Videos a Gran Escala
MUG-V 10B: High-efficiency Training Pipeline for Large Video Generation Models
October 20, 2025
Autores: Yongshun Zhang, Zhongyi Fan, Yonghang Zhang, Zhangzikang Li, Weifeng Chen, Zhongwei Feng, Chaoyue Wang, Peng Hou, Anxiang Zeng
cs.AI
Resumen
En los últimos años, los modelos generativos a gran escala para contenido visual (por ejemplo, imágenes, videos y objetos/escenas 3D) han logrado avances notables. Sin embargo, el entrenamiento de modelos de generación de videos a gran escala sigue siendo particularmente desafiante y requiere muchos recursos debido a la alineación multimodal texto-video, las secuencias largas involucradas y las complejas dependencias espacio-temporales. Para abordar estos desafíos, presentamos un marco de entrenamiento que optimiza cuatro pilares: (i) procesamiento de datos, (ii) arquitectura del modelo, (iii) estrategia de entrenamiento y (iv) infraestructura para modelos de generación de videos a gran escala. Estas optimizaciones han proporcionado ganancias significativas en eficiencia y mejoras en el rendimiento en todas las etapas de preprocesamiento de datos, compresión de video, escalado de parámetros, preentrenamiento basado en currículo y post-entrenamiento centrado en la alineación. Nuestro modelo resultante, MUG-V 10B, iguala a los generadores de video más recientes de vanguardia en general y, en tareas de generación de video orientadas al comercio electrónico, supera a los principales baselines de código abierto en evaluaciones humanas. Más importante aún, hemos liberado toda la pila, incluyendo los pesos del modelo, el código de entrenamiento a gran escala basado en Megatron-Core y las canalizaciones de inferencia para la generación y mejora de videos. Hasta donde sabemos, esta es la primera publicación pública de código de entrenamiento para generación de video a gran escala que aprovecha Megatron-Core para lograr una alta eficiencia de entrenamiento y un escalado casi lineal en múltiples nodos. Los detalles están disponibles en https://github.com/Shopee-MUG/MUG-V{nuestra página web}.
English
In recent years, large-scale generative models for visual content
(e.g., images, videos, and 3D objects/scenes) have made remarkable
progress. However, training large-scale video generation models remains
particularly challenging and resource-intensive due to cross-modal text-video
alignment, the long sequences involved, and the complex spatiotemporal
dependencies. To address these challenges, we present a training framework that
optimizes four pillars: (i) data processing, (ii) model architecture, (iii)
training strategy, and (iv) infrastructure for large-scale video generation
models. These optimizations delivered significant efficiency gains and
performance improvements across all stages of data preprocessing, video
compression, parameter scaling, curriculum-based pretraining, and
alignment-focused post-training. Our resulting model, MUG-V 10B, matches recent
state-of-the-art video generators overall and, on e-commerce-oriented video
generation tasks, surpasses leading open-source baselines in human evaluations.
More importantly, we open-source the complete stack, including model weights,
Megatron-Core-based large-scale training code, and inference pipelines for
video generation and enhancement. To our knowledge, this is the first public
release of large-scale video generation training code that exploits
Megatron-Core to achieve high training efficiency and near-linear multi-node
scaling, details are available in
https://github.com/Shopee-MUG/MUG-V{our webpage}.