Apprendimento per rinforzo su larga scala per modelli di diffusione

Abstract

I modelli di diffusione testo-immagine sono una classe di modelli generativi profondi che hanno dimostrato una capacità impressionante nella generazione di immagini di alta qualità. Tuttavia, questi modelli sono suscettibili a bias impliciti che derivano da coppie testo-immagine su scala web e potrebbero rappresentare in modo inaccurato aspetti delle immagini che ci interessano. Ciò può portare a campioni subottimali, bias del modello e immagini che non si allineano con l'etica e le preferenze umane. In questo articolo, presentiamo un algoritmo scalabile ed efficace per migliorare i modelli di diffusione utilizzando il Reinforcement Learning (RL) su un insieme diversificato di funzioni di ricompensa, come le preferenze umane, la composizionalità e l'equità su milioni di immagini. Illustriamo come il nostro approccio superi sostanzialmente i metodi esistenti per allineare i modelli di diffusione con le preferenze umane. Inoltre, dimostriamo come questo migliori significativamente i modelli pre-addestrati di Stable Diffusion (SD), generando campioni preferiti dagli esseri umani l'80,3% delle volte rispetto a quelli del modello SD di base, migliorando contemporaneamente sia la composizione che la diversità dei campioni generati.

English

Text-to-image diffusion models are a class of deep generative models that have demonstrated an impressive capacity for high-quality image generation. However, these models are susceptible to implicit biases that arise from web-scale text-image training pairs and may inaccurately model aspects of images we care about. This can result in suboptimal samples, model bias, and images that do not align with human ethics and preferences. In this paper, we present an effective scalable algorithm to improve diffusion models using Reinforcement Learning (RL) across a diverse set of reward functions, such as human preference, compositionality, and fairness over millions of images. We illustrate how our approach substantially outperforms existing methods for aligning diffusion models with human preferences. We further illustrate how this substantially improves pretrained Stable Diffusion (SD) models, generating samples that are preferred by humans 80.3% of the time over those from the base SD model while simultaneously improving both the composition and diversity of generated samples.

Apprendimento per rinforzo su larga scala per modelli di diffusione

Large-scale Reinforcement Learning for Diffusion Models

Abstract

Support