DenseDPO: Optimización de Preferencias Temporales de Granularidad Fina para Modelos de Difusión de Video
DenseDPO: Fine-Grained Temporal Preference Optimization for Video Diffusion Models
June 4, 2025
Autores: Ziyi Wu, Anil Kag, Ivan Skorokhodov, Willi Menapace, Ashkan Mirzaei, Igor Gilitschenski, Sergey Tulyakov, Aliaksandr Siarohin
cs.AI
Resumen
La Optimización Directa de Preferencias (DPO, por sus siglas en inglés) se ha aplicado recientemente como una técnica posterior al entrenamiento para modelos de difusión de texto a video. Para obtener datos de entrenamiento, se solicita a los anotadores que proporcionen preferencias entre dos videos generados a partir de ruido independiente. Sin embargo, este enfoque impide comparaciones detalladas y señalamos que sesga a los anotadores hacia clips con poco movimiento, ya que estos suelen contener menos artefactos visuales. En este trabajo, presentamos DenseDPO, un método que aborda estas limitaciones mediante tres contribuciones. Primero, creamos cada par de videos para DPO descomponiendo copias corrompidas de un video de referencia. Esto resulta en pares alineados con estructuras de movimiento similares pero que difieren en detalles locales, neutralizando efectivamente el sesgo de movimiento. Segundo, aprovechamos la alineación temporal resultante para etiquetar preferencias en segmentos cortos en lugar de clips completos, obteniendo una señal de aprendizaje más densa y precisa. Con solo un tercio de los datos etiquetados, DenseDPO mejora significativamente la generación de movimiento en comparación con DPO convencional, mientras que iguala su alineación de texto, calidad visual y consistencia temporal. Finalmente, demostramos que DenseDPO permite la anotación automática de preferencias utilizando modelos de lenguaje visual (VLMs) disponibles: GPT predice con precisión las preferencias a nivel de segmento de manera similar a los modelos de recompensa de video ajustados específicamente para la tarea, y DenseDPO entrenado con estas etiquetas alcanza un rendimiento cercano al uso de etiquetas humanas.
English
Direct Preference Optimization (DPO) has recently been applied as a
post-training technique for text-to-video diffusion models. To obtain training
data, annotators are asked to provide preferences between two videos generated
from independent noise. However, this approach prohibits fine-grained
comparisons, and we point out that it biases the annotators towards low-motion
clips as they often contain fewer visual artifacts. In this work, we introduce
DenseDPO, a method that addresses these shortcomings by making three
contributions. First, we create each video pair for DPO by denoising corrupted
copies of a ground truth video. This results in aligned pairs with similar
motion structures while differing in local details, effectively neutralizing
the motion bias. Second, we leverage the resulting temporal alignment to label
preferences on short segments rather than entire clips, yielding a denser and
more precise learning signal. With only one-third of the labeled data, DenseDPO
greatly improves motion generation over vanilla DPO, while matching it in text
alignment, visual quality, and temporal consistency. Finally, we show that
DenseDPO unlocks automatic preference annotation using off-the-shelf Vision
Language Models (VLMs): GPT accurately predicts segment-level preferences
similar to task-specifically fine-tuned video reward models, and DenseDPO
trained on these labels achieves performance close to using human labels.