DenseDPO: Fein abgestimmte zeitliche Präferenzoptimierung für Video-Diffusionsmodelle
DenseDPO: Fine-Grained Temporal Preference Optimization for Video Diffusion Models
June 4, 2025
papers.authors: Ziyi Wu, Anil Kag, Ivan Skorokhodov, Willi Menapace, Ashkan Mirzaei, Igor Gilitschenski, Sergey Tulyakov, Aliaksandr Siarohin
cs.AI
papers.abstract
Direct Preference Optimization (DPO) wurde kürzlich als Nachbearbeitungstechnik für Text-zu-Video-Diffusionsmodelle eingesetzt. Um Trainingsdaten zu erhalten, werden Annotatoren gebeten, Präferenzen zwischen zwei Videos anzugeben, die aus unabhängigem Rauschen generiert wurden. Dieser Ansatz verhindert jedoch feinkörnige Vergleiche, und wir weisen darauf hin, dass er die Annotatoren zu Clips mit geringer Bewegung verleitet, da diese oft weniger visuelle Artefakte enthalten. In dieser Arbeit stellen wir DenseDPO vor, eine Methode, die diese Schwächen durch drei Beiträge adressiert. Erstens erstellen wir jedes Videopaar für DPO durch Entrauschen beschädigter Kopien eines Ground-Truth-Videos. Dies führt zu ausgerichteten Paaren mit ähnlichen Bewegungsstrukturen, die sich jedoch in lokalen Details unterscheiden, wodurch die Bewegungsverzerrung effektiv neutralisiert wird. Zweitens nutzen wir die daraus resultierende zeitliche Ausrichtung, um Präferenzen auf kurzen Segmenten statt auf gesamten Clips zu kennzeichnen, was ein dichteres und präziseres Lernsignal liefert. Mit nur einem Drittel der annotierten Daten verbessert DenseDPO die Bewegungsgenerierung deutlich gegenüber dem herkömmlichen DPO, während es in Textausrichtung, visueller Qualität und zeitlicher Konsistenz gleichauf bleibt. Schließlich zeigen wir, dass DenseDPO die automatische Präferenzannotation mit Standard-Vision-Language-Models (VLMs) ermöglicht: GPT sagt segmentweise Präferenzen ähnlich wie speziell feinabgestimmte Video-Belohnungsmodelle genau voraus, und DenseDPO, das mit diesen Labels trainiert wird, erreicht eine Leistung, die nahe an der Verwendung menschlicher Labels liegt.
English
Direct Preference Optimization (DPO) has recently been applied as a
post-training technique for text-to-video diffusion models. To obtain training
data, annotators are asked to provide preferences between two videos generated
from independent noise. However, this approach prohibits fine-grained
comparisons, and we point out that it biases the annotators towards low-motion
clips as they often contain fewer visual artifacts. In this work, we introduce
DenseDPO, a method that addresses these shortcomings by making three
contributions. First, we create each video pair for DPO by denoising corrupted
copies of a ground truth video. This results in aligned pairs with similar
motion structures while differing in local details, effectively neutralizing
the motion bias. Second, we leverage the resulting temporal alignment to label
preferences on short segments rather than entire clips, yielding a denser and
more precise learning signal. With only one-third of the labeled data, DenseDPO
greatly improves motion generation over vanilla DPO, while matching it in text
alignment, visual quality, and temporal consistency. Finally, we show that
DenseDPO unlocks automatic preference annotation using off-the-shelf Vision
Language Models (VLMs): GPT accurately predicts segment-level preferences
similar to task-specifically fine-tuned video reward models, and DenseDPO
trained on these labels achieves performance close to using human labels.