ChatPaper.aiChatPaper

Alinhamento de Modelos de Difusão Usando Otimização Direta de Preferências

Diffusion Model Alignment Using Direct Preference Optimization

November 21, 2023
Autores: Bram Wallace, Meihua Dang, Rafael Rafailov, Linqi Zhou, Aaron Lou, Senthil Purushwalkam, Stefano Ermon, Caiming Xiong, Shafiq Joty, Nikhil Naik
cs.AI

Resumo

Modelos de linguagem de grande escala (LLMs) são ajustados utilizando dados de comparação humana com métodos de Aprendizado por Reforço com Feedback Humano (RLHF) para torná-los mais alinhados com as preferências dos usuários. Em contraste com os LLMs, o aprendizado de preferências humanas não foi amplamente explorado em modelos de difusão texto-para-imagem; a melhor abordagem existente é ajustar um modelo pré-treinado utilizando imagens e legendas de alta qualidade cuidadosamente curadas para melhorar o apelo visual e o alinhamento textual. Propomos o Diffusion-DPO, um método para alinhar modelos de difusão às preferências humanas otimizando diretamente os dados de comparação humana. O Diffusion-DPO é adaptado do recentemente desenvolvido Otimização Direta de Preferências (DPO), uma alternativa mais simples ao RLHF que otimiza diretamente uma política que melhor satisfaz as preferências humanas sob um objetivo de classificação. Reformatamos o DPO para considerar uma noção de verossimilhança em modelos de difusão, utilizando o limite inferior da evidência para derivar um objetivo diferenciável. Utilizando o conjunto de dados Pick-a-Pic de 851 mil preferências pareadas coletadas por crowdsourcing, ajustamos o modelo base do estado da arte Stable Diffusion XL (SDXL)-1.0 com o Diffusion-DPO. Nosso modelo base ajustado supera significativamente tanto o SDXL-1.0 base quanto o modelo maior SDXL-1.0 que consiste em um modelo de refinamento adicional em avaliações humanas, melhorando o apelo visual e o alinhamento com o prompt. Também desenvolvemos uma variante que utiliza feedback de IA e tem desempenho comparável ao treinamento com preferências humanas, abrindo caminho para a escalabilidade dos métodos de alinhamento de modelos de difusão.
English
Large language models (LLMs) are fine-tuned using human comparison data with Reinforcement Learning from Human Feedback (RLHF) methods to make them better aligned with users' preferences. In contrast to LLMs, human preference learning has not been widely explored in text-to-image diffusion models; the best existing approach is to fine-tune a pretrained model using carefully curated high quality images and captions to improve visual appeal and text alignment. We propose Diffusion-DPO, a method to align diffusion models to human preferences by directly optimizing on human comparison data. Diffusion-DPO is adapted from the recently developed Direct Preference Optimization (DPO), a simpler alternative to RLHF which directly optimizes a policy that best satisfies human preferences under a classification objective. We re-formulate DPO to account for a diffusion model notion of likelihood, utilizing the evidence lower bound to derive a differentiable objective. Using the Pick-a-Pic dataset of 851K crowdsourced pairwise preferences, we fine-tune the base model of the state-of-the-art Stable Diffusion XL (SDXL)-1.0 model with Diffusion-DPO. Our fine-tuned base model significantly outperforms both base SDXL-1.0 and the larger SDXL-1.0 model consisting of an additional refinement model in human evaluation, improving visual appeal and prompt alignment. We also develop a variant that uses AI feedback and has comparable performance to training on human preferences, opening the door for scaling of diffusion model alignment methods.
PDF493February 8, 2026