Крупномасштабное обучение с подкреплением для диффузионных моделей
Large-scale Reinforcement Learning for Diffusion Models
January 20, 2024
Авторы: Yinan Zhang, Eric Tzeng, Yilun Du, Dmitry Kislyuk
cs.AI
Аннотация
Модели диффузии для генерации изображений из текста представляют собой класс глубоких генеративных моделей, которые продемонстрировали впечатляющую способность к созданию высококачественных изображений. Однако эти модели подвержены скрытым предубеждениям, возникающим из-за использования веб-масштабных пар текст-изображение для обучения, что может приводить к неточному моделированию аспектов изображений, важных для нас. Это может выливаться в субоптимальные результаты, смещения модели и изображения, не соответствующие человеческой этике и предпочтениям. В данной статье мы представляем эффективный масштабируемый алгоритм для улучшения моделей диффузии с использованием обучения с подкреплением (RL) на основе разнообразных функций вознаграждения, таких как человеческие предпочтения, композиционность и справедливость, применяемых к миллионам изображений. Мы показываем, что наш подход значительно превосходит существующие методы согласования моделей диффузии с человеческими предпочтениями. Кроме того, мы демонстрируем, как это существенно улучшает предобученные модели Stable Diffusion (SD), генерируя изображения, которые предпочитаются людьми в 80,3% случаев по сравнению с базовой моделью SD, одновременно улучшая композицию и разнообразие генерируемых образцов.
English
Text-to-image diffusion models are a class of deep generative models that
have demonstrated an impressive capacity for high-quality image generation.
However, these models are susceptible to implicit biases that arise from
web-scale text-image training pairs and may inaccurately model aspects of
images we care about. This can result in suboptimal samples, model bias, and
images that do not align with human ethics and preferences. In this paper, we
present an effective scalable algorithm to improve diffusion models using
Reinforcement Learning (RL) across a diverse set of reward functions, such as
human preference, compositionality, and fairness over millions of images. We
illustrate how our approach substantially outperforms existing methods for
aligning diffusion models with human preferences. We further illustrate how
this substantially improves pretrained Stable Diffusion (SD) models, generating
samples that are preferred by humans 80.3% of the time over those from the base
SD model while simultaneously improving both the composition and diversity of
generated samples.