Reg-DPO : Optimisation Directe des Préférences Régularisée par SFT avec Paires de Vérité Terrain pour l'Amélioration de la Génération de Vidéos
Reg-DPO: SFT-Regularized Direct Preference Optimization with GT-Pair for Improving Video Generation
November 3, 2025
papers.authors: Jie Du, Xinyu Gong, Qingshan Tan, Wen Li, Yangming Cheng, Weitao Wang, Chenlu Zhan, Suhui Wu, Hao Zhang, Jun Zhang
cs.AI
papers.abstract
Des études récentes ont identifié l'Optimisation Directe des Préférences (DPO) comme une approche efficace et sans récompense pour améliorer la qualité de la génération vidéo. Cependant, les méthodes existantes suivent largement les paradigmes du domaine de l'image et sont principalement développées sur des modèles à petite échelle (environ 2 milliards de paramètres), limitant leur capacité à relever les défis spécifiques aux tâches vidéo, tels que la construction coûteuse de données, l'entraînement instable et la consommation mémoire élevée. Pour surmonter ces limitations, nous introduisons un GT-Pair qui construit automatiquement des paires de préférences de haute qualité en utilisant des vidéos réelles comme positifs et des vidéos générées par le modèle comme négatifs, éliminant ainsi tout besoin d'annotation externe. Nous présentons également Reg-DPO, qui intègre la perte SFT comme terme de régularisation dans l'objectif DPO pour améliorer la stabilité de l'entraînement et la fidélité de la génération. De plus, en combinant le framework FSDP avec plusieurs techniques d'optimisation de la mémoire, notre approche atteint une capacité d'entraînement près de trois fois supérieure à l'utilisation de FSDP seul. Des expériences approfondies sur les tâches I2V et T2V à travers plusieurs jeux de données démontrent que notre méthode surpasse constamment les approches existantes, offrant une qualité de génération vidéo supérieure.
English
Recent studies have identified Direct Preference Optimization (DPO) as an
efficient and reward-free approach to improving video generation quality.
However, existing methods largely follow image-domain paradigms and are mainly
developed on small-scale models (approximately 2B parameters), limiting their
ability to address the unique challenges of video tasks, such as costly data
construction, unstable training, and heavy memory consumption. To overcome
these limitations, we introduce a GT-Pair that automatically builds
high-quality preference pairs by using real videos as positives and
model-generated videos as negatives, eliminating the need for any external
annotation. We further present Reg-DPO, which incorporates the SFT loss as a
regularization term into the DPO objective to enhance training stability and
generation fidelity. Additionally, by combining the FSDP framework with
multiple memory optimization techniques, our approach achieves nearly three
times higher training capacity than using FSDP alone. Extensive experiments on
both I2V and T2V tasks across multiple datasets demonstrate that our method
consistently outperforms existing approaches, delivering superior video
generation quality.