DenseDPO: ビデオ拡散モデルのための細粒度時間的選好最適化
DenseDPO: Fine-Grained Temporal Preference Optimization for Video Diffusion Models
June 4, 2025
著者: Ziyi Wu, Anil Kag, Ivan Skorokhodov, Willi Menapace, Ashkan Mirzaei, Igor Gilitschenski, Sergey Tulyakov, Aliaksandr Siarohin
cs.AI
要旨
Direct Preference Optimization (DPO) は最近、テキストからビデオへの拡散モデルのポストトレーニング技術として適用されている。トレーニングデータを取得するために、アノテーターは独立したノイズから生成された2つのビデオ間の選好を提供するよう求められる。しかし、このアプローチは細かい比較を妨げ、低モーションのクリップにアノテーターを偏らせる傾向があることを指摘する。なぜなら、それらはしばしば視覚的なアーティファクトが少ないためである。本研究では、これらの欠点を解決するためにDenseDPOという手法を提案し、以下の3つの貢献を行う。第一に、DPOのための各ビデオペアを、グラウンドトゥルースビデオの破損コピーをデノイズすることで作成する。これにより、モーション構造が類似しつつ局所的な詳細が異なる整列されたペアが得られ、モーションバイアスを効果的に中和する。第二に、得られた時間的整列を活用して、クリップ全体ではなく短いセグメントに対する選好をラベル付けし、より密で正確な学習信号を生成する。ラベル付けデータの3分の1のみで、DenseDPOはモーション生成を大幅に改善し、テキストアライメント、視覚品質、時間的一貫性においてバニラDPOと同等の性能を達成する。最後に、DenseDPOが既存のVision Language Models (VLMs) を使用した自動選好アノテーションを可能にすることを示す。GPTは、タスク固有にファインチューンされたビデオ報酬モデルと同様にセグメントレベルの選好を正確に予測し、これらのラベルでトレーニングされたDenseDPOは人間のラベルを使用した場合に近い性能を達成する。
English
Direct Preference Optimization (DPO) has recently been applied as a
post-training technique for text-to-video diffusion models. To obtain training
data, annotators are asked to provide preferences between two videos generated
from independent noise. However, this approach prohibits fine-grained
comparisons, and we point out that it biases the annotators towards low-motion
clips as they often contain fewer visual artifacts. In this work, we introduce
DenseDPO, a method that addresses these shortcomings by making three
contributions. First, we create each video pair for DPO by denoising corrupted
copies of a ground truth video. This results in aligned pairs with similar
motion structures while differing in local details, effectively neutralizing
the motion bias. Second, we leverage the resulting temporal alignment to label
preferences on short segments rather than entire clips, yielding a denser and
more precise learning signal. With only one-third of the labeled data, DenseDPO
greatly improves motion generation over vanilla DPO, while matching it in text
alignment, visual quality, and temporal consistency. Finally, we show that
DenseDPO unlocks automatic preference annotation using off-the-shelf Vision
Language Models (VLMs): GPT accurately predicts segment-level preferences
similar to task-specifically fine-tuned video reward models, and DenseDPO
trained on these labels achieves performance close to using human labels.