ChatPaper.aiChatPaper

MUG-V 10B: 대규모 비디오 생성 모델을 위한 고효율 학습 파이프라인

MUG-V 10B: High-efficiency Training Pipeline for Large Video Generation Models

October 20, 2025
저자: Yongshun Zhang, Zhongyi Fan, Yonghang Zhang, Zhangzikang Li, Weifeng Chen, Zhongwei Feng, Chaoyue Wang, Peng Hou, Anxiang Zeng
cs.AI

초록

최근 몇 년 동안 이미지, 비디오, 3D 객체/장면과 같은 시각적 콘텐츠를 위한 대규모 생성 모델이 눈부신 발전을 이루었습니다. 그러나 대규모 비디오 생성 모델의 훈련은 크로스모달 텍스트-비디오 정렬, 긴 시퀀스, 복잡한 시공간적 의존성으로 인해 특히 어렵고 자원 집약적인 작업으로 남아 있습니다. 이러한 문제를 해결하기 위해, 우리는 데이터 처리, 모델 아키텍처, 훈련 전략, 대규모 비디오 생성 모델을 위한 인프라라는 네 가지 기둥을 최적화하는 훈련 프레임워크를 제시합니다. 이러한 최적화는 데이터 전처리, 비디오 압축, 파라미터 스케일링, 커리큘럼 기반 사전 훈련, 정렬 중심 사후 훈련 등 모든 단계에서 상당한 효율성 향상과 성능 개선을 가져왔습니다. 그 결과로 개발된 MUG-V 10B 모델은 최신 최첨단 비디오 생성기와 전반적으로 동등한 성능을 보이며, 특히 전자상거래 지향 비디오 생성 작업에서는 주요 오픈소스 베이스라인을 인간 평가에서 능가합니다. 더 중요한 것은, 우리는 모델 가중치, Megatron-Core 기반 대규모 훈련 코드, 비디오 생성 및 향상을 위한 추론 파이프라인을 포함한 전체 스택을 오픈소스로 공개했습니다. 우리가 아는 한, 이는 Megatron-Core를 활용하여 높은 훈련 효율성과 거의 선형적인 다중 노드 스케일링을 달성한 대규모 비디오 생성 훈련 코드의 첫 번째 공개 릴리스입니다. 자세한 내용은 https://github.com/Shopee-MUG/MUG-V{우리 웹페이지}에서 확인할 수 있습니다.
English
In recent years, large-scale generative models for visual content (e.g., images, videos, and 3D objects/scenes) have made remarkable progress. However, training large-scale video generation models remains particularly challenging and resource-intensive due to cross-modal text-video alignment, the long sequences involved, and the complex spatiotemporal dependencies. To address these challenges, we present a training framework that optimizes four pillars: (i) data processing, (ii) model architecture, (iii) training strategy, and (iv) infrastructure for large-scale video generation models. These optimizations delivered significant efficiency gains and performance improvements across all stages of data preprocessing, video compression, parameter scaling, curriculum-based pretraining, and alignment-focused post-training. Our resulting model, MUG-V 10B, matches recent state-of-the-art video generators overall and, on e-commerce-oriented video generation tasks, surpasses leading open-source baselines in human evaluations. More importantly, we open-source the complete stack, including model weights, Megatron-Core-based large-scale training code, and inference pipelines for video generation and enhancement. To our knowledge, this is the first public release of large-scale video generation training code that exploits Megatron-Core to achieve high training efficiency and near-linear multi-node scaling, details are available in https://github.com/Shopee-MUG/MUG-V{our webpage}.
PDF92October 22, 2025