DPOK: Reinforcement Learning voor het Fijn Afstellen van Text-to-Image Diffusiemodellen
DPOK: Reinforcement Learning for Fine-tuning Text-to-Image Diffusion Models
May 25, 2023
Auteurs: Ying Fan, Olivia Watkins, Yuqing Du, Hao Liu, Moonkyung Ryu, Craig Boutilier, Pieter Abbeel, Mohammad Ghavamzadeh, Kangwook Lee, Kimin Lee
cs.AI
Samenvatting
Leren van menselijke feedback is aangetoond dat het tekst-naar-beeldmodellen verbetert.
Deze technieken leren eerst een beloningsfunctie die vastlegt waar mensen op letten
bij de taak en verbeteren vervolgens de modellen op basis van de geleerde beloningsfunctie.
Hoewel relatief eenvoudige benaderingen (bijvoorbeeld afwijzingssteekproeven
op basis van beloningsscores) zijn onderzocht, blijft het finetunen van tekst-naar-beeldmodellen
met de beloningsfunctie een uitdaging. In dit werk stellen we voor
om online reinforcement learning (RL) te gebruiken om tekst-naar-beeldmodellen te finetunen.
We richten ons op diffusiemodellen, definiëren de finetuningstaak als een RL-probleem, en
updaten de vooraf getrainde tekst-naar-beeld diffusiemodellen met behulp van policy gradient
om de op feedback getrainde beloning te maximaliseren. Onze aanpak, genaamd DPOK, integreert
policy-optimalisatie met KL-regularisatie. We voeren een analyse uit van KL-regularisatie
voor zowel RL-finetuning als supervised finetuning. In onze experimenten tonen we aan
dat DPOK over het algemeen superieur is aan supervised finetuning wat betreft zowel
beeld-tekstuitlijning als beeldkwaliteit.
English
Learning from human feedback has been shown to improve text-to-image models.
These techniques first learn a reward function that captures what humans care
about in the task and then improve the models based on the learned reward
function. Even though relatively simple approaches (e.g., rejection sampling
based on reward scores) have been investigated, fine-tuning text-to-image
models with the reward function remains challenging. In this work, we propose
using online reinforcement learning (RL) to fine-tune text-to-image models. We
focus on diffusion models, defining the fine-tuning task as an RL problem, and
updating the pre-trained text-to-image diffusion models using policy gradient
to maximize the feedback-trained reward. Our approach, coined DPOK, integrates
policy optimization with KL regularization. We conduct an analysis of KL
regularization for both RL fine-tuning and supervised fine-tuning. In our
experiments, we show that DPOK is generally superior to supervised fine-tuning
with respect to both image-text alignment and image quality.