DenseDPO: Ottimizzazione Fine-Grana delle Preferenze Temporali per Modelli di Diffusione Video

Abstract

L'ottimizzazione diretta delle preferenze (Direct Preference Optimization, DPO) è stata recentemente applicata come tecnica post-addestramento per modelli di diffusione testo-video. Per ottenere i dati di addestramento, agli annotatori viene chiesto di esprimere preferenze tra due video generati da rumore indipendente. Tuttavia, questo approccio impedisce confronti granulari e sottolineiamo che tende a favorire clip con poco movimento, poiché spesso contengono meno artefatti visivi. In questo lavoro, introduciamo DenseDPO, un metodo che affronta queste limitazioni attraverso tre contributi principali. Innanzitutto, creiamo ogni coppia di video per DPO rimuovendo il rumore da copie corrotte di un video di riferimento. Ciò produce coppie allineate con strutture di movimento simili ma differenze nei dettagli locali, neutralizzando efficacemente il bias legato al movimento. In secondo luogo, sfruttiamo l'allineamento temporale risultante per etichettare le preferenze su segmenti brevi anziché su interi clip, ottenendo un segnale di apprendimento più denso e preciso. Con solo un terzo dei dati etichettati, DenseDPO migliora notevolmente la generazione del movimento rispetto alla DPO standard, mantenendo livelli comparabili di allineamento al testo, qualità visiva e coerenza temporale. Infine, dimostriamo che DenseDPO consente l'annotazione automatica delle preferenze utilizzando modelli linguistico-visivi (Vision Language Models, VLMs) preesistenti: GPT predice accuratamente le preferenze a livello di segmento in modo simile a modelli di ricompensa video addestrati specificamente per il compito, e DenseDPO addestrato su queste etichette raggiunge prestazioni vicine a quelle ottenute con etichette umane.

English

Direct Preference Optimization (DPO) has recently been applied as a post-training technique for text-to-video diffusion models. To obtain training data, annotators are asked to provide preferences between two videos generated from independent noise. However, this approach prohibits fine-grained comparisons, and we point out that it biases the annotators towards low-motion clips as they often contain fewer visual artifacts. In this work, we introduce DenseDPO, a method that addresses these shortcomings by making three contributions. First, we create each video pair for DPO by denoising corrupted copies of a ground truth video. This results in aligned pairs with similar motion structures while differing in local details, effectively neutralizing the motion bias. Second, we leverage the resulting temporal alignment to label preferences on short segments rather than entire clips, yielding a denser and more precise learning signal. With only one-third of the labeled data, DenseDPO greatly improves motion generation over vanilla DPO, while matching it in text alignment, visual quality, and temporal consistency. Finally, we show that DenseDPO unlocks automatic preference annotation using off-the-shelf Vision Language Models (VLMs): GPT accurately predicts segment-level preferences similar to task-specifically fine-tuned video reward models, and DenseDPO trained on these labels achieves performance close to using human labels.

DenseDPO: Ottimizzazione Fine-Grana delle Preferenze Temporali per Modelli di Diffusione Video

DenseDPO: Fine-Grained Temporal Preference Optimization for Video Diffusion Models

Abstract

Support