Alinhamento de Difusão de Vídeo via Gradientes de Recompensa
Video Diffusion Alignment via Reward Gradients
July 11, 2024
Autores: Mihir Prabhudesai, Russell Mendonca, Zheyang Qin, Katerina Fragkiadaki, Deepak Pathak
cs.AI
Resumo
Fizemos progressos significativos na construção de modelos fundamentais de difusão de vídeo. Como esses modelos são treinados usando dados não supervisionados em grande escala, tornou-se crucial adaptá-los a tarefas específicas. Adaptar esses modelos por meio de ajuste fino supervisionado requer a coleta de conjuntos de dados-alvo de vídeos, o que é desafiador e tedioso. Neste trabalho, utilizamos modelos de recompensa pré-treinados, aprendidos por preferências sobre modelos discriminativos de visão poderosos, para adaptar modelos de difusão de vídeo. Esses modelos contêm informações de gradiente densas em relação aos pixels RGB gerados, o que é crítico para a aprendizagem eficiente em espaços de busca complexos, como vídeos. Mostramos que retropropagar gradientes desses modelos de recompensa para um modelo de difusão de vídeo pode permitir o alinhamento eficiente em termos de cálculo e amostragem do modelo de difusão de vídeo. Apresentamos resultados com uma variedade de modelos de recompensa e modelos de difusão de vídeo, demonstrando que nossa abordagem pode aprender de forma muito mais eficiente em termos de consultas de recompensa e computação do que abordagens anteriores sem gradientes. Nosso código, pesos do modelo e mais visualizações estão disponíveis em https://vader-vid.github.io.
English
We have made significant progress towards building foundational video
diffusion models. As these models are trained using large-scale unsupervised
data, it has become crucial to adapt these models to specific downstream tasks.
Adapting these models via supervised fine-tuning requires collecting target
datasets of videos, which is challenging and tedious. In this work, we utilize
pre-trained reward models that are learned via preferences on top of powerful
vision discriminative models to adapt video diffusion models. These models
contain dense gradient information with respect to generated RGB pixels, which
is critical to efficient learning in complex search spaces, such as videos. We
show that backpropagating gradients from these reward models to a video
diffusion model can allow for compute and sample efficient alignment of the
video diffusion model. We show results across a variety of reward models and
video diffusion models, demonstrating that our approach can learn much more
efficiently in terms of reward queries and computation than prior gradient-free
approaches. Our code, model weights,and more visualization are available at
https://vader-vid.github.io.