Allineamento dei Modelli di Diffusione tramite Ottimizzazione Diretta delle Preferenze
Diffusion Model Alignment Using Direct Preference Optimization
November 21, 2023
Autori: Bram Wallace, Meihua Dang, Rafael Rafailov, Linqi Zhou, Aaron Lou, Senthil Purushwalkam, Stefano Ermon, Caiming Xiong, Shafiq Joty, Nikhil Naik
cs.AI
Abstract
I grandi modelli linguistici (LLM) vengono affinati utilizzando dati di confronto umano con metodi di Reinforcement Learning from Human Feedback (RLHF) per renderli meglio allineati alle preferenze degli utenti. Al contrario dei LLM, l'apprendimento delle preferenze umane non è stato ampiamente esplorato nei modelli di diffusione testo-immagine; il miglior approccio esistente consiste nell'affinare un modello pre-addestrato utilizzando immagini e didascalie di alta qualità accuratamente selezionate per migliorare l'attrattiva visiva e l'allineamento al testo. Proponiamo Diffusion-DPO, un metodo per allineare i modelli di diffusione alle preferenze umane ottimizzando direttamente i dati di confronto umano. Diffusion-DPO è adattato dal recentemente sviluppato Direct Preference Optimization (DPO), un'alternativa più semplice all'RLHF che ottimizza direttamente una politica che soddisfa al meglio le preferenze umane sotto un obiettivo di classificazione. Riformuliamo il DPO per tenere conto di una nozione di verosimiglianza per i modelli di diffusione, utilizzando il limite inferiore dell'evidenza per derivare un obiettivo differenziabile. Utilizzando il dataset Pick-a-Pic di 851K preferenze pairwise crowdsourced, affiniamo il modello base dello stato dell'arte Stable Diffusion XL (SDXL)-1.0 con Diffusion-DPO. Il nostro modello base affinato supera significativamente sia il modello base SDXL-1.0 che il modello più grande SDXL-1.0 composto da un ulteriore modello di raffinamento nella valutazione umana, migliorando l'attrattiva visiva e l'allineamento al prompt. Sviluppiamo anche una variante che utilizza feedback AI e ha prestazioni comparabili all'addestramento sulle preferenze umane, aprendo la strada alla scalabilità dei metodi di allineamento dei modelli di diffusione.
English
Large language models (LLMs) are fine-tuned using human comparison data with
Reinforcement Learning from Human Feedback (RLHF) methods to make them better
aligned with users' preferences. In contrast to LLMs, human preference learning
has not been widely explored in text-to-image diffusion models; the best
existing approach is to fine-tune a pretrained model using carefully curated
high quality images and captions to improve visual appeal and text alignment.
We propose Diffusion-DPO, a method to align diffusion models to human
preferences by directly optimizing on human comparison data. Diffusion-DPO is
adapted from the recently developed Direct Preference Optimization (DPO), a
simpler alternative to RLHF which directly optimizes a policy that best
satisfies human preferences under a classification objective. We re-formulate
DPO to account for a diffusion model notion of likelihood, utilizing the
evidence lower bound to derive a differentiable objective. Using the Pick-a-Pic
dataset of 851K crowdsourced pairwise preferences, we fine-tune the base model
of the state-of-the-art Stable Diffusion XL (SDXL)-1.0 model with
Diffusion-DPO. Our fine-tuned base model significantly outperforms both base
SDXL-1.0 and the larger SDXL-1.0 model consisting of an additional refinement
model in human evaluation, improving visual appeal and prompt alignment. We
also develop a variant that uses AI feedback and has comparable performance to
training on human preferences, opening the door for scaling of diffusion model
alignment methods.