ChatPaper.aiChatPaper

MUG-V 10B: Pipeline ad alta efficienza per l'addestramento di modelli di generazione video su larga scala

MUG-V 10B: High-efficiency Training Pipeline for Large Video Generation Models

October 20, 2025
Autori: Yongshun Zhang, Zhongyi Fan, Yonghang Zhang, Zhangzikang Li, Weifeng Chen, Zhongwei Feng, Chaoyue Wang, Peng Hou, Anxiang Zeng
cs.AI

Abstract

Negli ultimi anni, i modelli generativi su larga scala per contenuti visivi (ad esempio, immagini, video e oggetti/scene 3D) hanno compiuto progressi notevoli. Tuttavia, l'addestramento di modelli di generazione video su larga scala rimane particolarmente impegnativo e dispendioso in termini di risorse a causa dell'allineamento cross-modale testo-video, delle lunghe sequenze coinvolte e delle complesse dipendenze spaziotemporali. Per affrontare queste sfide, presentiamo un framework di addestramento che ottimizza quattro pilastri: (i) elaborazione dei dati, (ii) architettura del modello, (iii) strategia di addestramento e (iv) infrastruttura per modelli di generazione video su larga scala. Queste ottimizzazioni hanno portato a significativi guadagni di efficienza e miglioramenti delle prestazioni in tutte le fasi di pre-elaborazione dei dati, compressione video, scalabilità dei parametri, pre-addestramento basato su curriculum e post-addestramento focalizzato sull'allineamento. Il nostro modello risultante, MUG-V 10B, eguaglia i recenti generatori video all'avanguardia in generale e, nelle attività di generazione video orientate all'e-commerce, supera i principali baseline open-source nelle valutazioni umane. Ancora più importante, abbiamo reso open-source l'intero stack, inclusi i pesi del modello, il codice di addestramento su larga scala basato su Megatron-Core e le pipeline di inferenza per la generazione e il miglioramento video. A nostra conoscenza, questa è la prima release pubblica di codice di addestramento per la generazione video su larga scala che sfrutta Megatron-Core per ottenere un'elevata efficienza di addestramento e una scalabilità quasi lineare su più nodi. I dettagli sono disponibili su https://github.com/Shopee-MUG/MUG-V{la nostra pagina web}.
English
In recent years, large-scale generative models for visual content (e.g., images, videos, and 3D objects/scenes) have made remarkable progress. However, training large-scale video generation models remains particularly challenging and resource-intensive due to cross-modal text-video alignment, the long sequences involved, and the complex spatiotemporal dependencies. To address these challenges, we present a training framework that optimizes four pillars: (i) data processing, (ii) model architecture, (iii) training strategy, and (iv) infrastructure for large-scale video generation models. These optimizations delivered significant efficiency gains and performance improvements across all stages of data preprocessing, video compression, parameter scaling, curriculum-based pretraining, and alignment-focused post-training. Our resulting model, MUG-V 10B, matches recent state-of-the-art video generators overall and, on e-commerce-oriented video generation tasks, surpasses leading open-source baselines in human evaluations. More importantly, we open-source the complete stack, including model weights, Megatron-Core-based large-scale training code, and inference pipelines for video generation and enhancement. To our knowledge, this is the first public release of large-scale video generation training code that exploits Megatron-Core to achieve high training efficiency and near-linear multi-node scaling, details are available in https://github.com/Shopee-MUG/MUG-V{our webpage}.
PDF92October 22, 2025