ChatPaper.aiChatPaper

DenseDPO : Optimisation fine des préférences temporelles pour les modèles de diffusion vidéo

DenseDPO: Fine-Grained Temporal Preference Optimization for Video Diffusion Models

June 4, 2025
Auteurs: Ziyi Wu, Anil Kag, Ivan Skorokhodov, Willi Menapace, Ashkan Mirzaei, Igor Gilitschenski, Sergey Tulyakov, Aliaksandr Siarohin
cs.AI

Résumé

L'Optimisation Directe des Préférences (Direct Preference Optimization, DPO) a récemment été appliquée comme technique post-entraînement pour les modèles de diffusion texte-vidéo. Pour obtenir des données d'entraînement, les annotateurs sont invités à fournir des préférences entre deux vidéos générées à partir de bruits indépendants. Cependant, cette approche interdit des comparaisons fines, et nous soulignons qu'elle biaise les annotateurs vers des clips à faible mouvement, car ceux-ci contiennent souvent moins d'artefacts visuels. Dans ce travail, nous introduisons DenseDPO, une méthode qui remédie à ces lacunes en apportant trois contributions. Premièrement, nous créons chaque paire de vidéos pour la DPO en débruitant des copies corrompues d'une vidéo de référence. Cela permet d'obtenir des paires alignées avec des structures de mouvement similaires tout en différant par des détails locaux, neutralisant ainsi efficacement le biais lié au mouvement. Deuxièmement, nous exploitons l'alignement temporel résultant pour étiqueter les préférences sur de courts segments plutôt que sur des clips entiers, produisant ainsi un signal d'apprentissage plus dense et plus précis. Avec seulement un tiers des données étiquetées, DenseDPO améliore considérablement la génération de mouvements par rapport à la DPO classique, tout en égalant celle-ci en termes d'alignement textuel, de qualité visuelle et de cohérence temporelle. Enfin, nous montrons que DenseDPO permet l'annotation automatique des préférences en utilisant des modèles de langage visuel (Vision Language Models, VLMs) prêts à l'emploi : GPT prédit avec précision les préférences au niveau des segments de manière similaire à des modèles de récompense vidéo spécifiquement affinés pour la tâche, et DenseDPO entraîné sur ces étiquettes atteint des performances proches de celles obtenues avec des étiquettes humaines.
English
Direct Preference Optimization (DPO) has recently been applied as a post-training technique for text-to-video diffusion models. To obtain training data, annotators are asked to provide preferences between two videos generated from independent noise. However, this approach prohibits fine-grained comparisons, and we point out that it biases the annotators towards low-motion clips as they often contain fewer visual artifacts. In this work, we introduce DenseDPO, a method that addresses these shortcomings by making three contributions. First, we create each video pair for DPO by denoising corrupted copies of a ground truth video. This results in aligned pairs with similar motion structures while differing in local details, effectively neutralizing the motion bias. Second, we leverage the resulting temporal alignment to label preferences on short segments rather than entire clips, yielding a denser and more precise learning signal. With only one-third of the labeled data, DenseDPO greatly improves motion generation over vanilla DPO, while matching it in text alignment, visual quality, and temporal consistency. Finally, we show that DenseDPO unlocks automatic preference annotation using off-the-shelf Vision Language Models (VLMs): GPT accurately predicts segment-level preferences similar to task-specifically fine-tuned video reward models, and DenseDPO trained on these labels achieves performance close to using human labels.
PDF132June 5, 2025