Un Cadre Systématique de Post-Formation pour la Génération de Vidéos
A Systematic Post-Train Framework for Video Generation
April 28, 2026
Auteurs: Zeyue Xue, Siming Fu, Jie Huang, Shuai Lu, Haoran Li, Yijun Liu, Yuming Li, Xiaoxuan He, Mengzhao Chen, Haoyang Huang, Nan Duan, Ping Luo
cs.AI
Résumé
Bien que les modèles de diffusion vidéo à grande échelle aient démontré des capacités impressionnantes à générer un contenu haute résolution et sémantiquement riche, un écart significatif subsiste entre leurs performances en pré-entraînement et les exigences de déploiement en conditions réelles, en raison de problèmes critiques tels que la sensibilité aux instructions, l'incohérence temporelle et des coûts d'inférence prohibitifs. Pour combler cet écart, nous proposons un cadre complet de post-entraînement qui aligne systématiquement les modèles pré-entraînés avec les intentions des utilisateurs via quatre étapes synergiques : nous employons d'abord un Fine-Tuning Supervisé (SFT) pour transformer le modèle de base en une politique stable de suivi d'instructions, suivie d'une étape d'Apprentissage par Renforcement à partir de Retours Humains (RLHF) qui utilise une nouvelle méthode d'Optimisation de Politique Relative par Groupe (GRPO) conçue pour la diffusion vidéo afin d'améliorer la qualité perceptuelle et la cohérence temporelle ; ensuite, nous intégrons une Amélioration des Instructions via un modèle de langage spécialisé pour affiner les entrées utilisateur, et enfin, nous abordons l'efficacité du système via une Optimisation de l'Inférence. Ensemble, ces composants offrent une approche systématique pour améliorer la qualité visuelle, la cohérence temporelle et le suivi des instructions, tout en préservant la contrôlabilité apprise lors du pré-entraînement. Le résultat est une feuille de route pratique pour construire des pipelines de post-entraînement évolutifs, stables, adaptables et efficaces pour un déploiement réel. Des expériences approfondies démontrent que ce pipeline unifié atténue efficacement les artéfacts courants et améliore significativement la contrôlabilité et l'esthétique visuelle, tout en respectant des contraintes strictes de coût d'échantillonnage.
English
While large-scale video diffusion models have demonstrated impressive capabilities in generating high-resolution and semantically rich content, a significant gap remains between their pretraining performance and real-world deployment requirements due to critical issues such as prompt sensitivity, temporal inconsistency, and prohibitive inference costs. To bridge this gap, we propose a comprehensive post-training framework that systematically aligns pretrained models with user intentions through four synergistic stages: we first employ Supervised Fine-Tuning (SFT) to transform the base model into a stable instruction-following policy, followed by a Reinforcement Learning from Human Feedback (RLHF) stage that utilizes a novel Group Relative Policy Optimization (GRPO) method tailored for video diffusion to enhance perceptual quality and temporal coherence; subsequently, we integrate Prompt Enhancement via a specialized language model to refine user inputs, and finally address system efficiency through Inference Optimization. Together, these components provide a systematic approach to improving visual quality, temporal coherence, and instruction following, while preserving the controllability learned during pretraining. The result is a practical blueprint for building scalable post-training pipelines that are stable, adaptable, and effective in real-world deployment. Extensive experiments demonstrate that this unified pipeline effectively mitigates common artifacts and significantly improves controllability and visual aesthetics while adhering to strict sampling cost constraints.