Allineamento dei modelli di diffusione testo-immagine con retropropagazione del reward

Abstract

I modelli di diffusione text-to-image sono recentemente emersi in prima linea nella generazione di immagini, alimentati da dataset di addestramento text-to-image su larga scala, non supervisionati o debolmente supervisionati. A causa del loro addestramento non supervisionato, controllare il loro comportamento in task downstream, come massimizzare la qualità percepita dell'immagine, l'allineamento immagine-testo o la generazione etica di immagini, è difficile. Recenti lavori ottimizzano i modelli di diffusione per funzioni di reward downstream utilizzando il classico reinforcement learning, noto per l'elevata varianza degli stimatori del gradiente. In questo articolo, proponiamo AlignProp, un metodo che allinea i modelli di diffusione alle funzioni di reward downstream utilizzando la backpropagation end-to-end del gradiente del reward attraverso il processo di denoising. Mentre un'implementazione ingenua di tale backpropagation richiederebbe risorse di memoria proibitive per memorizzare le derivate parziali dei moderni modelli text-to-image, AlignProp ottimizza moduli di peso adattatori a basso rango e utilizza il gradient checkpointing, rendendo così fattibile l'uso della memoria. Testiamo AlignProp nell'ottimizzazione di modelli di diffusione per vari obiettivi, come l'allineamento semantico immagine-testo, l'estetica, la comprimibilità e la controllabilità del numero di oggetti presenti, nonché le loro combinazioni. Mostriamo che AlignProp raggiunge reward più elevati in meno passi di addestramento rispetto alle alternative, pur essendo concettualmente più semplice, rendendolo una scelta diretta per ottimizzare i modelli di diffusione per funzioni di reward differenziabili di interesse. Codice e risultati di visualizzazione sono disponibili su https://align-prop.github.io/.

English

Text-to-image diffusion models have recently emerged at the forefront of image generation, powered by very large-scale unsupervised or weakly supervised text-to-image training datasets. Due to their unsupervised training, controlling their behavior in downstream tasks, such as maximizing human-perceived image quality, image-text alignment, or ethical image generation, is difficult. Recent works finetune diffusion models to downstream reward functions using vanilla reinforcement learning, notorious for the high variance of the gradient estimators. In this paper, we propose AlignProp, a method that aligns diffusion models to downstream reward functions using end-to-end backpropagation of the reward gradient through the denoising process. While naive implementation of such backpropagation would require prohibitive memory resources for storing the partial derivatives of modern text-to-image models, AlignProp finetunes low-rank adapter weight modules and uses gradient checkpointing, to render its memory usage viable. We test AlignProp in finetuning diffusion models to various objectives, such as image-text semantic alignment, aesthetics, compressibility and controllability of the number of objects present, as well as their combinations. We show AlignProp achieves higher rewards in fewer training steps than alternatives, while being conceptually simpler, making it a straightforward choice for optimizing diffusion models for differentiable reward functions of interest. Code and Visualization results are available at https://align-prop.github.io/.

Allineamento dei modelli di diffusione testo-immagine con retropropagazione del reward

Aligning Text-to-Image Diffusion Models with Reward Backpropagation

Abstract

Support