DenseDPO: Otimização de Preferências Temporais de Alta Resolução para Modelos de Difusão de Vídeo
DenseDPO: Fine-Grained Temporal Preference Optimization for Video Diffusion Models
June 4, 2025
Autores: Ziyi Wu, Anil Kag, Ivan Skorokhodov, Willi Menapace, Ashkan Mirzaei, Igor Gilitschenski, Sergey Tulyakov, Aliaksandr Siarohin
cs.AI
Resumo
O Direct Preference Optimization (DPO) foi recentemente aplicado como uma técnica pós-treinamento para modelos de difusão de texto para vídeo. Para obter dados de treinamento, os anotadores são solicitados a fornecer preferências entre dois vídeos gerados a partir de ruídos independentes. No entanto, essa abordagem impede comparações refinadas, e destacamos que ela tende a favorecer clipes com pouco movimento, pois esses geralmente contêm menos artefatos visuais. Neste trabalho, apresentamos o DenseDPO, um método que aborda essas limitações com três contribuições principais. Primeiro, criamos cada par de vídeos para o DPO ao desnaturar cópias corrompidas de um vídeo de referência. Isso resulta em pares alinhados com estruturas de movimento semelhantes, mas com diferenças em detalhes locais, neutralizando efetivamente o viés de movimento. Segundo, aproveitamos o alinhamento temporal resultante para rotular preferências em segmentos curtos em vez de clipes inteiros, gerando um sinal de aprendizado mais denso e preciso. Com apenas um terço dos dados rotulados, o DenseDPO melhora significativamente a geração de movimento em comparação com o DPO tradicional, enquanto mantém a mesma qualidade em alinhamento de texto, qualidade visual e consistência temporal. Por fim, demonstramos que o DenseDPO permite a anotação automática de preferências usando modelos de linguagem visual (VLMs) prontos para uso: o GPT prevê com precisão preferências em nível de segmento, semelhante a modelos de recompensa de vídeo ajustados especificamente para a tarefa, e o DenseDPO treinado com essas anotações alcança desempenho próximo ao uso de rótulos humanos.
English
Direct Preference Optimization (DPO) has recently been applied as a
post-training technique for text-to-video diffusion models. To obtain training
data, annotators are asked to provide preferences between two videos generated
from independent noise. However, this approach prohibits fine-grained
comparisons, and we point out that it biases the annotators towards low-motion
clips as they often contain fewer visual artifacts. In this work, we introduce
DenseDPO, a method that addresses these shortcomings by making three
contributions. First, we create each video pair for DPO by denoising corrupted
copies of a ground truth video. This results in aligned pairs with similar
motion structures while differing in local details, effectively neutralizing
the motion bias. Second, we leverage the resulting temporal alignment to label
preferences on short segments rather than entire clips, yielding a denser and
more precise learning signal. With only one-third of the labeled data, DenseDPO
greatly improves motion generation over vanilla DPO, while matching it in text
alignment, visual quality, and temporal consistency. Finally, we show that
DenseDPO unlocks automatic preference annotation using off-the-shelf Vision
Language Models (VLMs): GPT accurately predicts segment-level preferences
similar to task-specifically fine-tuned video reward models, and DenseDPO
trained on these labels achieves performance close to using human labels.