ChatPaper.aiChatPaper

Apprentissage par renforcement à grande échelle pour les modèles de diffusion

Large-scale Reinforcement Learning for Diffusion Models

January 20, 2024
Auteurs: Yinan Zhang, Eric Tzeng, Yilun Du, Dmitry Kislyuk
cs.AI

Résumé

Les modèles de diffusion texte-image constituent une classe de modèles génératifs profonds qui ont démontré une capacité impressionnante à générer des images de haute qualité. Cependant, ces modèles sont susceptibles de présenter des biais implicites issus de paires texte-image à l'échelle du web, ce qui peut entraîner une modélisation inexacte d'aspects des images qui nous importent. Cela peut se traduire par des échantillons sous-optimaux, des biais dans le modèle, et des images qui ne correspondent pas à l'éthique et aux préférences humaines. Dans cet article, nous présentons un algorithme efficace et évolutif pour améliorer les modèles de diffusion en utilisant l'apprentissage par renforcement (RL) à travers un ensemble diversifié de fonctions de récompense, telles que les préférences humaines, la compositionnalité et l'équité, appliquées à des millions d'images. Nous montrons comment notre approche surpasse significativement les méthodes existantes pour aligner les modèles de diffusion sur les préférences humaines. Nous démontrons également comment cela améliore considérablement les modèles pré-entraînés de Stable Diffusion (SD), générant des échantillons préférés par les humains 80,3 % du temps par rapport à ceux du modèle SD de base, tout en améliorant à la fois la composition et la diversité des échantillons générés.
English
Text-to-image diffusion models are a class of deep generative models that have demonstrated an impressive capacity for high-quality image generation. However, these models are susceptible to implicit biases that arise from web-scale text-image training pairs and may inaccurately model aspects of images we care about. This can result in suboptimal samples, model bias, and images that do not align with human ethics and preferences. In this paper, we present an effective scalable algorithm to improve diffusion models using Reinforcement Learning (RL) across a diverse set of reward functions, such as human preference, compositionality, and fairness over millions of images. We illustrate how our approach substantially outperforms existing methods for aligning diffusion models with human preferences. We further illustrate how this substantially improves pretrained Stable Diffusion (SD) models, generating samples that are preferred by humans 80.3% of the time over those from the base SD model while simultaneously improving both the composition and diversity of generated samples.
PDF301December 15, 2024