ChatPaper.aiChatPaper

MUG-V 10B: Высокоэффективный конвейер обучения для моделей генерации крупномасштабных видео

MUG-V 10B: High-efficiency Training Pipeline for Large Video Generation Models

October 20, 2025
Авторы: Yongshun Zhang, Zhongyi Fan, Yonghang Zhang, Zhangzikang Li, Weifeng Chen, Zhongwei Feng, Chaoyue Wang, Peng Hou, Anxiang Zeng
cs.AI

Аннотация

В последние годы крупномасштабные генеративные модели для визуального контента (например, изображений, видео и 3D-объектов/сцен) достигли значительного прогресса. Однако обучение крупномасштабных моделей генерации видео остается особенно сложной и ресурсоемкой задачей из-за необходимости кросс-модального согласования текста и видео, длинных последовательностей и сложных пространственно-временных зависимостей. Для решения этих проблем мы представляем фреймворк обучения, который оптимизирует четыре ключевых аспекта: (i) обработку данных, (ii) архитектуру модели, (iii) стратегию обучения и (iv) инфраструктуру для крупномасштабных моделей генерации видео. Эти оптимизации привели к значительному повышению эффективности и улучшению производительности на всех этапах, включая предварительную обработку данных, сжатие видео, масштабирование параметров, предварительное обучение на основе учебного плана и пост-обучение с акцентом на согласование. Наша итоговая модель, MUG-V 10B, соответствует последним передовым генераторам видео в целом и превосходит ведущие открытые базовые модели в задачах генерации видео для электронной коммерции по оценкам людей. Что еще важнее, мы открываем исходный код всего стека, включая веса модели, код для крупномасштабного обучения на основе Megatron-Core и конвейеры для генерации и улучшения видео. Насколько нам известно, это первый публичный релиз кода для обучения крупномасштабных моделей генерации видео, который использует Megatron-Core для достижения высокой эффективности обучения и почти линейного масштабирования на нескольких узлах. Подробности доступны на нашей странице: https://github.com/Shopee-MUG/MUG-V.
English
In recent years, large-scale generative models for visual content (e.g., images, videos, and 3D objects/scenes) have made remarkable progress. However, training large-scale video generation models remains particularly challenging and resource-intensive due to cross-modal text-video alignment, the long sequences involved, and the complex spatiotemporal dependencies. To address these challenges, we present a training framework that optimizes four pillars: (i) data processing, (ii) model architecture, (iii) training strategy, and (iv) infrastructure for large-scale video generation models. These optimizations delivered significant efficiency gains and performance improvements across all stages of data preprocessing, video compression, parameter scaling, curriculum-based pretraining, and alignment-focused post-training. Our resulting model, MUG-V 10B, matches recent state-of-the-art video generators overall and, on e-commerce-oriented video generation tasks, surpasses leading open-source baselines in human evaluations. More importantly, we open-source the complete stack, including model weights, Megatron-Core-based large-scale training code, and inference pipelines for video generation and enhancement. To our knowledge, this is the first public release of large-scale video generation training code that exploits Megatron-Core to achieve high training efficiency and near-linear multi-node scaling, details are available in https://github.com/Shopee-MUG/MUG-V{our webpage}.
PDF92October 22, 2025