Alignement des Modèles de Diffusion par Optimisation Directe des Préférences
Diffusion Model Alignment Using Direct Preference Optimization
November 21, 2023
Auteurs: Bram Wallace, Meihua Dang, Rafael Rafailov, Linqi Zhou, Aaron Lou, Senthil Purushwalkam, Stefano Ermon, Caiming Xiong, Shafiq Joty, Nikhil Naik
cs.AI
Résumé
Les grands modèles de langage (LLMs) sont affinés à l'aide de données de comparaison humaine avec des méthodes d'apprentissage par renforcement basé sur les retours humains (RLHF) pour mieux les aligner sur les préférences des utilisateurs. Contrairement aux LLMs, l'apprentissage des préférences humaines n'a pas été largement exploré dans les modèles de diffusion texte-image ; la meilleure approche existante consiste à affiner un modèle pré-entraîné en utilisant des images et des légendes de haute qualité soigneusement sélectionnées pour améliorer l'attrait visuel et l'alignement textuel. Nous proposons Diffusion-DPO, une méthode pour aligner les modèles de diffusion sur les préférences humaines en optimisant directement les données de comparaison humaine. Diffusion-DPO est adapté de l'optimisation directe des préférences (DPO), une alternative plus simple à RLHF qui optimise directement une politique satisfaisant au mieux les préférences humaines sous un objectif de classification. Nous reformulons DPO pour tenir compte d'une notion de vraisemblance dans les modèles de diffusion, en utilisant la borne inférieure de l'évidence pour dériver un objectif différentiable. En utilisant le jeu de données Pick-a-Pic de 851 000 préférences par paires collectées auprès de la foule, nous affinons le modèle de base du modèle de pointe Stable Diffusion XL (SDXL)-1.0 avec Diffusion-DPO. Notre modèle de base affiné surpasse significativement à la fois le modèle de base SDXL-1.0 et le modèle SDXL-1.0 plus grand comprenant un modèle de raffinement supplémentaire dans l'évaluation humaine, améliorant l'attrait visuel et l'alignement sur les prompts. Nous développons également une variante utilisant des retours d'IA et ayant des performances comparables à l'entraînement sur les préférences humaines, ouvrant la voie à la mise à l'échelle des méthodes d'alignement des modèles de diffusion.
English
Large language models (LLMs) are fine-tuned using human comparison data with
Reinforcement Learning from Human Feedback (RLHF) methods to make them better
aligned with users' preferences. In contrast to LLMs, human preference learning
has not been widely explored in text-to-image diffusion models; the best
existing approach is to fine-tune a pretrained model using carefully curated
high quality images and captions to improve visual appeal and text alignment.
We propose Diffusion-DPO, a method to align diffusion models to human
preferences by directly optimizing on human comparison data. Diffusion-DPO is
adapted from the recently developed Direct Preference Optimization (DPO), a
simpler alternative to RLHF which directly optimizes a policy that best
satisfies human preferences under a classification objective. We re-formulate
DPO to account for a diffusion model notion of likelihood, utilizing the
evidence lower bound to derive a differentiable objective. Using the Pick-a-Pic
dataset of 851K crowdsourced pairwise preferences, we fine-tune the base model
of the state-of-the-art Stable Diffusion XL (SDXL)-1.0 model with
Diffusion-DPO. Our fine-tuned base model significantly outperforms both base
SDXL-1.0 and the larger SDXL-1.0 model consisting of an additional refinement
model in human evaluation, improving visual appeal and prompt alignment. We
also develop a variant that uses AI feedback and has comparable performance to
training on human preferences, opening the door for scaling of diffusion model
alignment methods.Summary
AI-Generated Summary