Aprendizaje por Refuerzo a Gran Escala para Modelos de Difusión
Large-scale Reinforcement Learning for Diffusion Models
January 20, 2024
Autores: Yinan Zhang, Eric Tzeng, Yilun Du, Dmitry Kislyuk
cs.AI
Resumen
Los modelos de difusión de texto a imagen son una clase de modelos generativos profundos que han demostrado una capacidad impresionante para la generación de imágenes de alta calidad. Sin embargo, estos modelos son susceptibles a sesgos implícitos que surgen de pares de texto-imagen entrenados a escala web y pueden modelar de manera inexacta aspectos de las imágenes que nos importan. Esto puede resultar en muestras subóptimas, sesgos en el modelo e imágenes que no se alinean con la ética y las preferencias humanas. En este artículo, presentamos un algoritmo escalable y efectivo para mejorar los modelos de difusión utilizando Aprendizaje por Refuerzo (RL) a través de un conjunto diverso de funciones de recompensa, como la preferencia humana, la composicionalidad y la equidad, aplicado a millones de imágenes. Demostramos cómo nuestro enfoque supera sustancialmente los métodos existentes para alinear los modelos de difusión con las preferencias humanas. Además, ilustramos cómo esto mejora significativamente los modelos preentrenados de Stable Diffusion (SD), generando muestras que son preferidas por humanos en un 80.3% de los casos en comparación con las del modelo base SD, al mismo tiempo que mejora tanto la composición como la diversidad de las muestras generadas.
English
Text-to-image diffusion models are a class of deep generative models that
have demonstrated an impressive capacity for high-quality image generation.
However, these models are susceptible to implicit biases that arise from
web-scale text-image training pairs and may inaccurately model aspects of
images we care about. This can result in suboptimal samples, model bias, and
images that do not align with human ethics and preferences. In this paper, we
present an effective scalable algorithm to improve diffusion models using
Reinforcement Learning (RL) across a diverse set of reward functions, such as
human preference, compositionality, and fairness over millions of images. We
illustrate how our approach substantially outperforms existing methods for
aligning diffusion models with human preferences. We further illustrate how
this substantially improves pretrained Stable Diffusion (SD) models, generating
samples that are preferred by humans 80.3% of the time over those from the base
SD model while simultaneously improving both the composition and diversity of
generated samples.