Diffusiemodeluitlijning met Directe Voorkeursoptimalisatie
Diffusion Model Alignment Using Direct Preference Optimization
November 21, 2023
Auteurs: Bram Wallace, Meihua Dang, Rafael Rafailov, Linqi Zhou, Aaron Lou, Senthil Purushwalkam, Stefano Ermon, Caiming Xiong, Shafiq Joty, Nikhil Naik
cs.AI
Samenvatting
Grote taalmodellen (LLM's) worden afgestemd met behulp van menselijke vergelijkingsgegevens en Reinforcement Learning from Human Feedback (RLHF)-methoden om ze beter af te stemmen op de voorkeuren van gebruikers. In tegenstelling tot LLM's is het leren van menselijke voorkeuren bij tekst-naar-beeld diffusiemodellen nog niet breed onderzocht; de beste bestaande aanpak is het afstemmen van een vooraf getraind model met zorgvuldig geselecteerde hoogwaardige afbeeldingen en bijschriften om de visuele aantrekkingskracht en tekstafstemming te verbeteren. Wij stellen Diffusion-DPO voor, een methode om diffusiemodellen af te stemmen op menselijke voorkeuren door direct te optimaliseren op menselijke vergelijkingsgegevens. Diffusion-DPO is aangepast van het recent ontwikkelde Direct Preference Optimization (DPO), een eenvoudiger alternatief voor RLHF dat direct een beleid optimaliseert dat het best voldoet aan menselijke voorkeuren onder een classificatiedoelstelling. We herformuleren DPO om rekening te houden met een diffusiemodel-notie van waarschijnlijkheid, waarbij we de evidence lower bound gebruiken om een differentieerbaar doel af te leiden. Met behulp van de Pick-a-Pic dataset van 851K crowdsourced paarsgewijze voorkeuren, stemmen we het basismodel van het state-of-the-art Stable Diffusion XL (SDXL)-1.0 model af met Diffusion-DPO. Ons afgestemde basismodel presteert aanzienlijk beter dan zowel het basis SDXL-1.0-model als het grotere SDXL-1.0-model dat bestaat uit een extra verfijningsmodel in menselijke evaluatie, waarbij de visuele aantrekkingskracht en promptafstemming worden verbeterd. We ontwikkelen ook een variant die AI-feedback gebruikt en vergelijkbare prestaties heeft als training op menselijke voorkeuren, wat de deur opent voor het schalen van diffusiemodel-afstemmingsmethoden.
English
Large language models (LLMs) are fine-tuned using human comparison data with
Reinforcement Learning from Human Feedback (RLHF) methods to make them better
aligned with users' preferences. In contrast to LLMs, human preference learning
has not been widely explored in text-to-image diffusion models; the best
existing approach is to fine-tune a pretrained model using carefully curated
high quality images and captions to improve visual appeal and text alignment.
We propose Diffusion-DPO, a method to align diffusion models to human
preferences by directly optimizing on human comparison data. Diffusion-DPO is
adapted from the recently developed Direct Preference Optimization (DPO), a
simpler alternative to RLHF which directly optimizes a policy that best
satisfies human preferences under a classification objective. We re-formulate
DPO to account for a diffusion model notion of likelihood, utilizing the
evidence lower bound to derive a differentiable objective. Using the Pick-a-Pic
dataset of 851K crowdsourced pairwise preferences, we fine-tune the base model
of the state-of-the-art Stable Diffusion XL (SDXL)-1.0 model with
Diffusion-DPO. Our fine-tuned base model significantly outperforms both base
SDXL-1.0 and the larger SDXL-1.0 model consisting of an additional refinement
model in human evaluation, improving visual appeal and prompt alignment. We
also develop a variant that uses AI feedback and has comparable performance to
training on human preferences, opening the door for scaling of diffusion model
alignment methods.