ChatPaper.aiChatPaper

Согласование моделей диффузии текст-изображение с обратным распространением вознаграждения

Aligning Text-to-Image Diffusion Models with Reward Backpropagation

October 5, 2023
Авторы: Mihir Prabhudesai, Anirudh Goyal, Deepak Pathak, Katerina Fragkiadaki
cs.AI

Аннотация

Модели диффузии для генерации изображений по тексту недавно вышли на передний план в области создания изображений, благодаря использованию очень крупномасштабных наборов данных для обучения без учителя или с слабым контролем. Из-за их обучения без учителя управление их поведением в последующих задачах, таких как максимизация воспринимаемого человеком качества изображения, соответствия изображения и текста или этичной генерации изображений, является сложной задачей. Недавние работы адаптируют модели диффузии к целевым функциям с использованием классического обучения с подкреплением, известного высокой дисперсией оценок градиента. В данной статье мы предлагаем AlignProp — метод, который выравнивает модели диффузии по целевым функциям с помощью сквозного обратного распространения градиента награды через процесс удаления шума. Хотя наивная реализация такого обратного распространения потребовала бы непомерных ресурсов памяти для хранения частных производных современных моделей генерации изображений по тексту, AlignProp адаптирует низкоранговые модули весов и использует контрольные точки градиента, чтобы сделать использование памяти приемлемым. Мы тестируем AlignProp в адаптации моделей диффузии к различным целям, таким как семантическое соответствие изображения и текста, эстетика, сжимаемость и управляемость количества объектов, а также их комбинации. Мы показываем, что AlignProp достигает более высоких значений награды за меньшее количество шагов обучения по сравнению с альтернативами, оставаясь концептуально более простым, что делает его прямым выбором для оптимизации моделей диффузии по дифференцируемым целевым функциям. Код и визуализация результатов доступны по адресу https://align-prop.github.io/.
English
Text-to-image diffusion models have recently emerged at the forefront of image generation, powered by very large-scale unsupervised or weakly supervised text-to-image training datasets. Due to their unsupervised training, controlling their behavior in downstream tasks, such as maximizing human-perceived image quality, image-text alignment, or ethical image generation, is difficult. Recent works finetune diffusion models to downstream reward functions using vanilla reinforcement learning, notorious for the high variance of the gradient estimators. In this paper, we propose AlignProp, a method that aligns diffusion models to downstream reward functions using end-to-end backpropagation of the reward gradient through the denoising process. While naive implementation of such backpropagation would require prohibitive memory resources for storing the partial derivatives of modern text-to-image models, AlignProp finetunes low-rank adapter weight modules and uses gradient checkpointing, to render its memory usage viable. We test AlignProp in finetuning diffusion models to various objectives, such as image-text semantic alignment, aesthetics, compressibility and controllability of the number of objects present, as well as their combinations. We show AlignProp achieves higher rewards in fewer training steps than alternatives, while being conceptually simpler, making it a straightforward choice for optimizing diffusion models for differentiable reward functions of interest. Code and Visualization results are available at https://align-prop.github.io/.
PDF224December 15, 2024