Alineación de Modelos de Difusión mediante Optimización Directa de Preferencias
Diffusion Model Alignment Using Direct Preference Optimization
November 21, 2023
Autores: Bram Wallace, Meihua Dang, Rafael Rafailov, Linqi Zhou, Aaron Lou, Senthil Purushwalkam, Stefano Ermon, Caiming Xiong, Shafiq Joty, Nikhil Naik
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs) se ajustan utilizando datos de comparación humana con métodos de Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF) para alinearlos mejor con las preferencias de los usuarios. En contraste con los LLMs, el aprendizaje de preferencias humanas no ha sido ampliamente explorado en los modelos de difusión de texto a imagen; el mejor enfoque existente es ajustar un modelo preentrenado utilizando imágenes y descripciones cuidadosamente seleccionadas de alta calidad para mejorar el atractivo visual y la alineación con el texto. Proponemos Diffusion-DPO, un método para alinear modelos de difusión a las preferencias humanas optimizando directamente sobre datos de comparación humana. Diffusion-DPO se adapta del recientemente desarrollado Optimización Directa de Preferencias (DPO), una alternativa más simple a RLHF que optimiza directamente una política que mejor satisface las preferencias humanas bajo un objetivo de clasificación. Reformulamos DPO para tener en cuenta una noción de verosimilitud en modelos de difusión, utilizando el límite inferior de la evidencia para derivar un objetivo diferenciable. Utilizando el conjunto de datos Pick-a-Pic de 851K preferencias pareadas obtenidas mediante crowdsourcing, ajustamos el modelo base del estado del arte Stable Diffusion XL (SDXL)-1.0 con Diffusion-DPO. Nuestro modelo base ajustado supera significativamente tanto al modelo base SDXL-1.0 como al modelo más grande SDXL-1.0 que incluye un modelo adicional de refinamiento en evaluaciones humanas, mejorando el atractivo visual y la alineación con el prompt. También desarrollamos una variante que utiliza retroalimentación de IA y tiene un rendimiento comparable al entrenamiento con preferencias humanas, abriendo la puerta para la escalabilidad de los métodos de alineación de modelos de difusión.
English
Large language models (LLMs) are fine-tuned using human comparison data with
Reinforcement Learning from Human Feedback (RLHF) methods to make them better
aligned with users' preferences. In contrast to LLMs, human preference learning
has not been widely explored in text-to-image diffusion models; the best
existing approach is to fine-tune a pretrained model using carefully curated
high quality images and captions to improve visual appeal and text alignment.
We propose Diffusion-DPO, a method to align diffusion models to human
preferences by directly optimizing on human comparison data. Diffusion-DPO is
adapted from the recently developed Direct Preference Optimization (DPO), a
simpler alternative to RLHF which directly optimizes a policy that best
satisfies human preferences under a classification objective. We re-formulate
DPO to account for a diffusion model notion of likelihood, utilizing the
evidence lower bound to derive a differentiable objective. Using the Pick-a-Pic
dataset of 851K crowdsourced pairwise preferences, we fine-tune the base model
of the state-of-the-art Stable Diffusion XL (SDXL)-1.0 model with
Diffusion-DPO. Our fine-tuned base model significantly outperforms both base
SDXL-1.0 and the larger SDXL-1.0 model consisting of an additional refinement
model in human evaluation, improving visual appeal and prompt alignment. We
also develop a variant that uses AI feedback and has comparable performance to
training on human preferences, opening the door for scaling of diffusion model
alignment methods.Summary
AI-Generated Summary