Alignement de la diffusion vidéo via les gradients de récompense

papers.abstract

Nous avons réalisé des progrès significatifs dans la construction de modèles de diffusion vidéo fondamentaux. Comme ces modèles sont entraînés à l'aide de données non supervisées à grande échelle, il est devenu crucial de les adapter à des tâches spécifiques en aval. L'adaptation de ces modèles via un ajustement fin supervisé nécessite la collecte de jeux de données cibles de vidéos, ce qui est à la fois difficile et fastidieux. Dans ce travail, nous utilisons des modèles de récompense pré-entraînés, appris via des préférences sur des modèles discriminatifs visuels puissants, pour adapter les modèles de diffusion vidéo. Ces modèles contiennent des informations de gradient denses par rapport aux pixels RGB générés, ce qui est essentiel pour un apprentissage efficace dans des espaces de recherche complexes, tels que les vidéos. Nous montrons que la rétropropagation des gradients de ces modèles de récompense vers un modèle de diffusion vidéo peut permettre un alignement efficace en termes de calcul et d'échantillonnage du modèle de diffusion vidéo. Nous présentons des résultats sur une variété de modèles de récompense et de modèles de diffusion vidéo, démontrant que notre approche peut apprendre de manière beaucoup plus efficace en termes de requêtes de récompense et de calcul que les approches antérieures sans gradient. Notre code, les poids des modèles, et davantage de visualisations sont disponibles à l'adresse https://vader-vid.github.io.

English

We have made significant progress towards building foundational video diffusion models. As these models are trained using large-scale unsupervised data, it has become crucial to adapt these models to specific downstream tasks. Adapting these models via supervised fine-tuning requires collecting target datasets of videos, which is challenging and tedious. In this work, we utilize pre-trained reward models that are learned via preferences on top of powerful vision discriminative models to adapt video diffusion models. These models contain dense gradient information with respect to generated RGB pixels, which is critical to efficient learning in complex search spaces, such as videos. We show that backpropagating gradients from these reward models to a video diffusion model can allow for compute and sample efficient alignment of the video diffusion model. We show results across a variety of reward models and video diffusion models, demonstrating that our approach can learn much more efficiently in terms of reward queries and computation than prior gradient-free approaches. Our code, model weights,and more visualization are available at https://vader-vid.github.io.

Alignement de la diffusion vidéo via les gradients de récompense

Video Diffusion Alignment via Reward Gradients

papers.abstract

Support