DenseDPO: Оптимизация временных предпочтений с высокой детализацией для видео-диффузионных моделей
DenseDPO: Fine-Grained Temporal Preference Optimization for Video Diffusion Models
June 4, 2025
Авторы: Ziyi Wu, Anil Kag, Ivan Skorokhodov, Willi Menapace, Ashkan Mirzaei, Igor Gilitschenski, Sergey Tulyakov, Aliaksandr Siarohin
cs.AI
Аннотация
Метод Direct Preference Optimization (DPO) недавно был применен в качестве посттренировочной техники для моделей диффузии текст-видео. Для получения обучающих данных аннотаторам предлагается выразить предпочтения между двумя видео, сгенерированными из независимого шума. Однако такой подход исключает детальные сравнения, и мы отмечаем, что он склоняет аннотаторов к выбору клипов с низкой динамикой, так как они часто содержат меньше визуальных артефактов. В данной работе мы представляем DenseDPO — метод, который устраняет эти недостатки за счет трех ключевых вкладов. Во-первых, мы создаем пары видео для DPO путем денойзинга искаженных копий эталонного видео. Это приводит к выравненным парам с похожими структурами движения, но различающимися в локальных деталях, что эффективно нейтрализует смещение в сторону динамики. Во-вторых, мы используем временное выравнивание для маркировки предпочтений на коротких сегментах, а не на целых клипах, что дает более плотный и точный сигнал для обучения. При использовании лишь трети размеченных данных DenseDPO значительно улучшает генерацию движения по сравнению с базовым DPO, сохраняя при этом сопоставимое качество текстового соответствия, визуального качества и временной согласованности. Наконец, мы показываем, что DenseDPO позволяет автоматизировать аннотацию предпочтений с использованием готовых Vision Language Models (VLMs): GPT точно предсказывает предпочтения на уровне сегментов, аналогично специализированным моделям оценки видео, а DenseDPO, обученный на таких метках, достигает производительности, близкой к использованию человеческих аннотаций.
English
Direct Preference Optimization (DPO) has recently been applied as a
post-training technique for text-to-video diffusion models. To obtain training
data, annotators are asked to provide preferences between two videos generated
from independent noise. However, this approach prohibits fine-grained
comparisons, and we point out that it biases the annotators towards low-motion
clips as they often contain fewer visual artifacts. In this work, we introduce
DenseDPO, a method that addresses these shortcomings by making three
contributions. First, we create each video pair for DPO by denoising corrupted
copies of a ground truth video. This results in aligned pairs with similar
motion structures while differing in local details, effectively neutralizing
the motion bias. Second, we leverage the resulting temporal alignment to label
preferences on short segments rather than entire clips, yielding a denser and
more precise learning signal. With only one-third of the labeled data, DenseDPO
greatly improves motion generation over vanilla DPO, while matching it in text
alignment, visual quality, and temporal consistency. Finally, we show that
DenseDPO unlocks automatic preference annotation using off-the-shelf Vision
Language Models (VLMs): GPT accurately predicts segment-level preferences
similar to task-specifically fine-tuned video reward models, and DenseDPO
trained on these labels achieves performance close to using human labels.