Reg-DPO : Optimisation Directe des Préférences Régularisée par SFT avec Paires de Vérité Terrain pour l'Amélioration de la Génération de Vidéos

papers.abstract

Des études récentes ont identifié l'Optimisation Directe des Préférences (DPO) comme une approche efficace et sans récompense pour améliorer la qualité de la génération vidéo. Cependant, les méthodes existantes suivent largement les paradigmes du domaine de l'image et sont principalement développées sur des modèles à petite échelle (environ 2 milliards de paramètres), limitant leur capacité à relever les défis spécifiques aux tâches vidéo, tels que la construction coûteuse de données, l'entraînement instable et la consommation mémoire élevée. Pour surmonter ces limitations, nous introduisons un GT-Pair qui construit automatiquement des paires de préférences de haute qualité en utilisant des vidéos réelles comme positifs et des vidéos générées par le modèle comme négatifs, éliminant ainsi tout besoin d'annotation externe. Nous présentons également Reg-DPO, qui intègre la perte SFT comme terme de régularisation dans l'objectif DPO pour améliorer la stabilité de l'entraînement et la fidélité de la génération. De plus, en combinant le framework FSDP avec plusieurs techniques d'optimisation de la mémoire, notre approche atteint une capacité d'entraînement près de trois fois supérieure à l'utilisation de FSDP seul. Des expériences approfondies sur les tâches I2V et T2V à travers plusieurs jeux de données démontrent que notre méthode surpasse constamment les approches existantes, offrant une qualité de génération vidéo supérieure.

English

Recent studies have identified Direct Preference Optimization (DPO) as an efficient and reward-free approach to improving video generation quality. However, existing methods largely follow image-domain paradigms and are mainly developed on small-scale models (approximately 2B parameters), limiting their ability to address the unique challenges of video tasks, such as costly data construction, unstable training, and heavy memory consumption. To overcome these limitations, we introduce a GT-Pair that automatically builds high-quality preference pairs by using real videos as positives and model-generated videos as negatives, eliminating the need for any external annotation. We further present Reg-DPO, which incorporates the SFT loss as a regularization term into the DPO objective to enhance training stability and generation fidelity. Additionally, by combining the FSDP framework with multiple memory optimization techniques, our approach achieves nearly three times higher training capacity than using FSDP alone. Extensive experiments on both I2V and T2V tasks across multiple datasets demonstrate that our method consistently outperforms existing approaches, delivering superior video generation quality.

Reg-DPO : Optimisation Directe des Préférences Régularisée par SFT avec Paires de Vérité Terrain pour l'Amélioration de la Génération de Vidéos

Reg-DPO: SFT-Regularized Direct Preference Optimization with GT-Pair for Improving Video Generation

papers.abstract

Support