Allineamento della Diffusione Video tramite Gradienti di Ricompensa
Video Diffusion Alignment via Reward Gradients
July 11, 2024
Autori: Mihir Prabhudesai, Russell Mendonca, Zheyang Qin, Katerina Fragkiadaki, Deepak Pathak
cs.AI
Abstract
Abbiamo compiuto progressi significativi nello sviluppo di modelli di diffusione video di base. Poiché questi modelli vengono addestrati utilizzando dati non supervisionati su larga scala, è diventato cruciale adattarli a specifici task downstream. L'adattamento di questi modelli tramite fine-tuning supervisionato richiede la raccolta di dataset target di video, un'operazione complessa e laboriosa. In questo lavoro, utilizziamo modelli di ricompensa pre-addestrati, appresi tramite preferenze su potenti modelli discriminativi visivi, per adattare i modelli di diffusione video. Questi modelli contengono informazioni dense sui gradienti rispetto ai pixel RGB generati, essenziali per un apprendimento efficiente in spazi di ricerca complessi, come quelli dei video. Dimostriamo che la retropropagazione dei gradienti da questi modelli di ricompensa a un modello di diffusione video può consentire un allineamento efficiente in termini di calcolo e campionamento del modello di diffusione video. Presentiamo risultati su una varietà di modelli di ricompensa e modelli di diffusione video, dimostrando che il nostro approccio può apprendere in modo molto più efficiente in termini di query di ricompensa e calcolo rispetto ai precedenti approcci privi di gradienti. Il nostro codice, i pesi del modello e ulteriori visualizzazioni sono disponibili su https://vader-vid.github.io.
English
We have made significant progress towards building foundational video
diffusion models. As these models are trained using large-scale unsupervised
data, it has become crucial to adapt these models to specific downstream tasks.
Adapting these models via supervised fine-tuning requires collecting target
datasets of videos, which is challenging and tedious. In this work, we utilize
pre-trained reward models that are learned via preferences on top of powerful
vision discriminative models to adapt video diffusion models. These models
contain dense gradient information with respect to generated RGB pixels, which
is critical to efficient learning in complex search spaces, such as videos. We
show that backpropagating gradients from these reward models to a video
diffusion model can allow for compute and sample efficient alignment of the
video diffusion model. We show results across a variety of reward models and
video diffusion models, demonstrating that our approach can learn much more
efficiently in terms of reward queries and computation than prior gradient-free
approaches. Our code, model weights,and more visualization are available at
https://vader-vid.github.io.