Allineamento della Diffusione Video tramite Gradienti di Ricompensa

Abstract

Abbiamo compiuto progressi significativi nello sviluppo di modelli di diffusione video di base. Poiché questi modelli vengono addestrati utilizzando dati non supervisionati su larga scala, è diventato cruciale adattarli a specifici task downstream. L'adattamento di questi modelli tramite fine-tuning supervisionato richiede la raccolta di dataset target di video, un'operazione complessa e laboriosa. In questo lavoro, utilizziamo modelli di ricompensa pre-addestrati, appresi tramite preferenze su potenti modelli discriminativi visivi, per adattare i modelli di diffusione video. Questi modelli contengono informazioni dense sui gradienti rispetto ai pixel RGB generati, essenziali per un apprendimento efficiente in spazi di ricerca complessi, come quelli dei video. Dimostriamo che la retropropagazione dei gradienti da questi modelli di ricompensa a un modello di diffusione video può consentire un allineamento efficiente in termini di calcolo e campionamento del modello di diffusione video. Presentiamo risultati su una varietà di modelli di ricompensa e modelli di diffusione video, dimostrando che il nostro approccio può apprendere in modo molto più efficiente in termini di query di ricompensa e calcolo rispetto ai precedenti approcci privi di gradienti. Il nostro codice, i pesi del modello e ulteriori visualizzazioni sono disponibili su https://vader-vid.github.io.

English

We have made significant progress towards building foundational video diffusion models. As these models are trained using large-scale unsupervised data, it has become crucial to adapt these models to specific downstream tasks. Adapting these models via supervised fine-tuning requires collecting target datasets of videos, which is challenging and tedious. In this work, we utilize pre-trained reward models that are learned via preferences on top of powerful vision discriminative models to adapt video diffusion models. These models contain dense gradient information with respect to generated RGB pixels, which is critical to efficient learning in complex search spaces, such as videos. We show that backpropagating gradients from these reward models to a video diffusion model can allow for compute and sample efficient alignment of the video diffusion model. We show results across a variety of reward models and video diffusion models, demonstrating that our approach can learn much more efficiently in terms of reward queries and computation than prior gradient-free approaches. Our code, model weights,and more visualization are available at https://vader-vid.github.io.

Allineamento della Diffusione Video tramite Gradienti di Ricompensa

Video Diffusion Alignment via Reward Gradients

Abstract

Support