DPOK: Обучение с подкреплением для тонкой настройки диффузионных моделей генерации изображений из текста
DPOK: Reinforcement Learning for Fine-tuning Text-to-Image Diffusion Models
May 25, 2023
Авторы: Ying Fan, Olivia Watkins, Yuqing Du, Hao Liu, Moonkyung Ryu, Craig Boutilier, Pieter Abbeel, Mohammad Ghavamzadeh, Kangwook Lee, Kimin Lee
cs.AI
Аннотация
Обучение на основе обратной связи от человека продемонстрировало свою эффективность в улучшении моделей генерации изображений по текстовым описаниям. Эти методы сначала обучают функцию вознаграждения, которая учитывает предпочтения людей в рамках задачи, а затем улучшают модели на основе этой функции. Несмотря на то, что относительно простые подходы (например, отбор с отклонением на основе оценок вознаграждения) уже были исследованы, тонкая настройка моделей генерации изображений с использованием функции вознаграждения остается сложной задачей. В данной работе мы предлагаем использовать онлайн-обучение с подкреплением (RL) для тонкой настройки моделей генерации изображений. Мы сосредотачиваемся на диффузионных моделях, определяя задачу тонкой настройки как проблему RL и обновляя предварительно обученные диффузионные модели генерации изображений с использованием градиента политики для максимизации вознаграждения, обученного на основе обратной связи. Наш подход, названный DPOK, интегрирует оптимизацию политики с регуляризацией по КЛ-дивергенции. Мы проводим анализ регуляризации по КЛ-дивергенции как для тонкой настройки с использованием RL, так и для тонкой настройки с учителем. В наших экспериментах мы показываем, что DPOK в целом превосходит тонкую настройку с учителем как по соответствию изображения и текста, так и по качеству изображений.
English
Learning from human feedback has been shown to improve text-to-image models.
These techniques first learn a reward function that captures what humans care
about in the task and then improve the models based on the learned reward
function. Even though relatively simple approaches (e.g., rejection sampling
based on reward scores) have been investigated, fine-tuning text-to-image
models with the reward function remains challenging. In this work, we propose
using online reinforcement learning (RL) to fine-tune text-to-image models. We
focus on diffusion models, defining the fine-tuning task as an RL problem, and
updating the pre-trained text-to-image diffusion models using policy gradient
to maximize the feedback-trained reward. Our approach, coined DPOK, integrates
policy optimization with KL regularization. We conduct an analysis of KL
regularization for both RL fine-tuning and supervised fine-tuning. In our
experiments, we show that DPOK is generally superior to supervised fine-tuning
with respect to both image-text alignment and image quality.