Alignement de la diffusion vidéo via les gradients de récompense
Video Diffusion Alignment via Reward Gradients
July 11, 2024
Auteurs: Mihir Prabhudesai, Russell Mendonca, Zheyang Qin, Katerina Fragkiadaki, Deepak Pathak
cs.AI
Résumé
Nous avons réalisé des progrès significatifs dans la construction de modèles de diffusion vidéo fondamentaux. Comme ces modèles sont entraînés à l'aide de données non supervisées à grande échelle, il est devenu crucial de les adapter à des tâches spécifiques en aval. L'adaptation de ces modèles via un ajustement fin supervisé nécessite la collecte de jeux de données cibles de vidéos, ce qui est à la fois difficile et fastidieux. Dans ce travail, nous utilisons des modèles de récompense pré-entraînés, appris via des préférences sur des modèles discriminatifs visuels puissants, pour adapter les modèles de diffusion vidéo. Ces modèles contiennent des informations de gradient denses par rapport aux pixels RGB générés, ce qui est essentiel pour un apprentissage efficace dans des espaces de recherche complexes, tels que les vidéos. Nous montrons que la rétropropagation des gradients de ces modèles de récompense vers un modèle de diffusion vidéo peut permettre un alignement efficace en termes de calcul et d'échantillonnage du modèle de diffusion vidéo. Nous présentons des résultats sur une variété de modèles de récompense et de modèles de diffusion vidéo, démontrant que notre approche peut apprendre de manière beaucoup plus efficace en termes de requêtes de récompense et de calcul que les approches antérieures sans gradient. Notre code, les poids des modèles, et davantage de visualisations sont disponibles à l'adresse https://vader-vid.github.io.
English
We have made significant progress towards building foundational video
diffusion models. As these models are trained using large-scale unsupervised
data, it has become crucial to adapt these models to specific downstream tasks.
Adapting these models via supervised fine-tuning requires collecting target
datasets of videos, which is challenging and tedious. In this work, we utilize
pre-trained reward models that are learned via preferences on top of powerful
vision discriminative models to adapt video diffusion models. These models
contain dense gradient information with respect to generated RGB pixels, which
is critical to efficient learning in complex search spaces, such as videos. We
show that backpropagating gradients from these reward models to a video
diffusion model can allow for compute and sample efficient alignment of the
video diffusion model. We show results across a variety of reward models and
video diffusion models, demonstrating that our approach can learn much more
efficiently in terms of reward queries and computation than prior gradient-free
approaches. Our code, model weights,and more visualization are available at
https://vader-vid.github.io.Summary
AI-Generated Summary