DenseDPO: Ottimizzazione Fine-Grana delle Preferenze Temporali per Modelli di Diffusione Video
DenseDPO: Fine-Grained Temporal Preference Optimization for Video Diffusion Models
June 4, 2025
Autori: Ziyi Wu, Anil Kag, Ivan Skorokhodov, Willi Menapace, Ashkan Mirzaei, Igor Gilitschenski, Sergey Tulyakov, Aliaksandr Siarohin
cs.AI
Abstract
L'ottimizzazione diretta delle preferenze (Direct Preference Optimization, DPO) è stata recentemente applicata come tecnica post-addestramento per modelli di diffusione testo-video. Per ottenere i dati di addestramento, agli annotatori viene chiesto di esprimere preferenze tra due video generati da rumore indipendente. Tuttavia, questo approccio impedisce confronti granulari e sottolineiamo che tende a favorire clip con poco movimento, poiché spesso contengono meno artefatti visivi. In questo lavoro, introduciamo DenseDPO, un metodo che affronta queste limitazioni attraverso tre contributi principali. Innanzitutto, creiamo ogni coppia di video per DPO rimuovendo il rumore da copie corrotte di un video di riferimento. Ciò produce coppie allineate con strutture di movimento simili ma differenze nei dettagli locali, neutralizzando efficacemente il bias legato al movimento. In secondo luogo, sfruttiamo l'allineamento temporale risultante per etichettare le preferenze su segmenti brevi anziché su interi clip, ottenendo un segnale di apprendimento più denso e preciso. Con solo un terzo dei dati etichettati, DenseDPO migliora notevolmente la generazione del movimento rispetto alla DPO standard, mantenendo livelli comparabili di allineamento al testo, qualità visiva e coerenza temporale. Infine, dimostriamo che DenseDPO consente l'annotazione automatica delle preferenze utilizzando modelli linguistico-visivi (Vision Language Models, VLMs) preesistenti: GPT predice accuratamente le preferenze a livello di segmento in modo simile a modelli di ricompensa video addestrati specificamente per il compito, e DenseDPO addestrato su queste etichette raggiunge prestazioni vicine a quelle ottenute con etichette umane.
English
Direct Preference Optimization (DPO) has recently been applied as a
post-training technique for text-to-video diffusion models. To obtain training
data, annotators are asked to provide preferences between two videos generated
from independent noise. However, this approach prohibits fine-grained
comparisons, and we point out that it biases the annotators towards low-motion
clips as they often contain fewer visual artifacts. In this work, we introduce
DenseDPO, a method that addresses these shortcomings by making three
contributions. First, we create each video pair for DPO by denoising corrupted
copies of a ground truth video. This results in aligned pairs with similar
motion structures while differing in local details, effectively neutralizing
the motion bias. Second, we leverage the resulting temporal alignment to label
preferences on short segments rather than entire clips, yielding a denser and
more precise learning signal. With only one-third of the labeled data, DenseDPO
greatly improves motion generation over vanilla DPO, while matching it in text
alignment, visual quality, and temporal consistency. Finally, we show that
DenseDPO unlocks automatic preference annotation using off-the-shelf Vision
Language Models (VLMs): GPT accurately predicts segment-level preferences
similar to task-specifically fine-tuned video reward models, and DenseDPO
trained on these labels achieves performance close to using human labels.