ChatPaper.aiChatPaper

Ausrichtung von Diffusionsmodellen durch direkte Präferenzoptimierung

Diffusion Model Alignment Using Direct Preference Optimization

November 21, 2023
Autoren: Bram Wallace, Meihua Dang, Rafael Rafailov, Linqi Zhou, Aaron Lou, Senthil Purushwalkam, Stefano Ermon, Caiming Xiong, Shafiq Joty, Nikhil Naik
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) werden mithilfe von menschlichen Vergleichsdaten und Methoden des Reinforcement Learning from Human Feedback (RLHF) feinabgestimmt, um sie besser an die Präferenzen der Nutzer anzupassen. Im Gegensatz zu LLMs wurde das Lernen menschlicher Präferenzen bei Text-zu-Bild-Diffusionsmodellen noch nicht umfassend erforscht; der beste bestehende Ansatz besteht darin, ein vortrainiertes Modell mithilfe sorgfältig kuratierter hochwertiger Bilder und Bildbeschreibungen zu verfeinern, um die visuelle Attraktivität und die Textausrichtung zu verbessern. Wir schlagen Diffusion-DPO vor, eine Methode zur Anpassung von Diffusionsmodellen an menschliche Präferenzen durch direkte Optimierung auf Basis von menschlichen Vergleichsdaten. Diffusion-DPO ist an das kürzlich entwickelte Direct Preference Optimization (DPO) angelehnt, eine einfachere Alternative zu RLHF, die direkt eine Strategie optimiert, die menschliche Präferenzen unter einem Klassifikationsziel am besten erfüllt. Wir reformulieren DPO, um eine Diffusionsmodell-Vorstellung von Wahrscheinlichkeit zu berücksichtigen, und nutzen die untere Schranke der Evidenz, um ein differenzierbares Ziel abzuleiten. Unter Verwendung des Pick-a-Pic-Datensatzes mit 851K crowdsourcierten paarweisen Präferenzen verfeinern wir das Basismodell des state-of-the-art Stable Diffusion XL (SDXL)-1.0-Modells mit Diffusion-DPO. Unser verfeinertes Basismodell übertrifft sowohl das Basismodell SDXL-1.0 als auch das größere SDXL-1.0-Modell, das ein zusätzliches Verfeinerungsmodell enthält, in menschlichen Bewertungen deutlich und verbessert die visuelle Attraktivität und die Prompt-Ausrichtung. Wir entwickeln auch eine Variante, die KI-Feedback verwendet und eine vergleichbare Leistung wie das Training auf menschlichen Präferenzen aufweist, was die Tür für die Skalierung von Anpassungsmethoden für Diffusionsmodelle öffnet.
English
Large language models (LLMs) are fine-tuned using human comparison data with Reinforcement Learning from Human Feedback (RLHF) methods to make them better aligned with users' preferences. In contrast to LLMs, human preference learning has not been widely explored in text-to-image diffusion models; the best existing approach is to fine-tune a pretrained model using carefully curated high quality images and captions to improve visual appeal and text alignment. We propose Diffusion-DPO, a method to align diffusion models to human preferences by directly optimizing on human comparison data. Diffusion-DPO is adapted from the recently developed Direct Preference Optimization (DPO), a simpler alternative to RLHF which directly optimizes a policy that best satisfies human preferences under a classification objective. We re-formulate DPO to account for a diffusion model notion of likelihood, utilizing the evidence lower bound to derive a differentiable objective. Using the Pick-a-Pic dataset of 851K crowdsourced pairwise preferences, we fine-tune the base model of the state-of-the-art Stable Diffusion XL (SDXL)-1.0 model with Diffusion-DPO. Our fine-tuned base model significantly outperforms both base SDXL-1.0 and the larger SDXL-1.0 model consisting of an additional refinement model in human evaluation, improving visual appeal and prompt alignment. We also develop a variant that uses AI feedback and has comparable performance to training on human preferences, opening the door for scaling of diffusion model alignment methods.

Summary

AI-Generated Summary

PDF503December 15, 2024