DenseDPO: Fijnmazige Temporele Voorkeursoptimalisatie voor Video-Diffusiemodellen
DenseDPO: Fine-Grained Temporal Preference Optimization for Video Diffusion Models
June 4, 2025
Auteurs: Ziyi Wu, Anil Kag, Ivan Skorokhodov, Willi Menapace, Ashkan Mirzaei, Igor Gilitschenski, Sergey Tulyakov, Aliaksandr Siarohin
cs.AI
Samenvatting
Direct Preference Optimization (DPO) is recentelijk toegepast als een post-trainingsmethode voor tekst-naar-video diffusiemodellen. Om trainingsdata te verkrijgen, worden annotatoren gevraagd voorkeuren aan te geven tussen twee video's die gegenereerd zijn uit onafhankelijke ruis. Deze aanpak maakt echter gedetailleerde vergelijkingen onmogelijk, en wij wijzen erop dat het annotatoren bevooroordeelt richting clips met weinig beweging, omdat deze vaak minder visuele artefacten bevatten. In dit werk introduceren we DenseDPO, een methode die deze tekortkomingen aanpakt door drie bijdragen te leveren. Ten eerste creëren we elk videopaar voor DPO door verstoorde kopieën van een grondwaarheidvideo te denoisen. Dit resulteert in uitgelijnde paren met vergelijkbare bewegingsstructuren, terwijl ze verschillen in lokale details, waardoor de bewegingsbias effectief wordt geneutraliseerd. Ten tweede benutten we de resulterende temporele uitlijning om voorkeuren te labelen op korte segmenten in plaats van hele clips, wat een dichter en preciezer leersignaal oplevert. Met slechts een derde van de gelabelde data verbetert DenseDPO de bewegingsgeneratie aanzienlijk ten opzichte van standaard DPO, terwijl het gelijk blijft in tekstuitlijning, visuele kwaliteit en temporele consistentie. Tot slot tonen we aan dat DenseDPO automatische voorkeursannotatie mogelijk maakt met behulp van kant-en-klare Vision Language Models (VLMs): GPT voorspelt segmentniveau voorkeuren nauwkeurig, vergelijkbaar met taakspecifiek gefinetunede videobeloningsmodellen, en DenseDPO getraind op deze labels bereikt prestaties die dicht in de buurt komen van het gebruik van menselijke labels.
English
Direct Preference Optimization (DPO) has recently been applied as a
post-training technique for text-to-video diffusion models. To obtain training
data, annotators are asked to provide preferences between two videos generated
from independent noise. However, this approach prohibits fine-grained
comparisons, and we point out that it biases the annotators towards low-motion
clips as they often contain fewer visual artifacts. In this work, we introduce
DenseDPO, a method that addresses these shortcomings by making three
contributions. First, we create each video pair for DPO by denoising corrupted
copies of a ground truth video. This results in aligned pairs with similar
motion structures while differing in local details, effectively neutralizing
the motion bias. Second, we leverage the resulting temporal alignment to label
preferences on short segments rather than entire clips, yielding a denser and
more precise learning signal. With only one-third of the labeled data, DenseDPO
greatly improves motion generation over vanilla DPO, while matching it in text
alignment, visual quality, and temporal consistency. Finally, we show that
DenseDPO unlocks automatic preference annotation using off-the-shelf Vision
Language Models (VLMs): GPT accurately predicts segment-level preferences
similar to task-specifically fine-tuned video reward models, and DenseDPO
trained on these labels achieves performance close to using human labels.