ChatPaper.aiChatPaper

拡散モデルの直接選好最適化を用いたアライメント

Diffusion Model Alignment Using Direct Preference Optimization

November 21, 2023
著者: Bram Wallace, Meihua Dang, Rafael Rafailov, Linqi Zhou, Aaron Lou, Senthil Purushwalkam, Stefano Ermon, Caiming Xiong, Shafiq Joty, Nikhil Naik
cs.AI

要旨

大規模言語モデル(LLM)は、人間の選好に適合させるため、人間の比較データを用いた強化学習(RLHF)手法によってファインチューニングが行われている。これに対し、テキストから画像への拡散モデルにおける人間の選好学習は広く研究されていない。現状で最も優れた手法は、視覚的魅力とテキストの整合性を向上させるために、厳選された高品質な画像とキャプションを用いて事前学習済みモデルをファインチューニングするものである。我々は、人間の比較データに対して直接最適化を行うことで拡散モデルを人間の選好に適合させる手法、Diffusion-DPOを提案する。Diffusion-DPOは、最近開発された直接選好最適化(DPO)を応用したものである。DPOはRLHFに代わるより簡潔な手法であり、分類目的の下で人間の選好を最も満たすポリシーを直接最適化する。我々は、拡散モデルの尤度概念を考慮してDPOを再定式化し、エビデンス下限を利用して微分可能な目的関数を導出した。85万1千件のクラウドソーシングによるペアワイズ選好データセットであるPick-a-Picを用いて、最先端のStable Diffusion XL(SDXL)-1.0のベースモデルをDiffusion-DPOでファインチューニングした。我々のファインチューニングされたベースモデルは、追加の精緻化モデルを含むより大規模なSDXL-1.0モデルとベースSDXL-1.0の両方を人間による評価で有意に上回り、視覚的魅力とプロンプトの整合性を向上させた。また、AIフィードバックを利用し、人間の選好による学習と同等の性能を示すバリアントも開発し、拡散モデルの適合手法のスケーリングへの道を開いた。
English
Large language models (LLMs) are fine-tuned using human comparison data with Reinforcement Learning from Human Feedback (RLHF) methods to make them better aligned with users' preferences. In contrast to LLMs, human preference learning has not been widely explored in text-to-image diffusion models; the best existing approach is to fine-tune a pretrained model using carefully curated high quality images and captions to improve visual appeal and text alignment. We propose Diffusion-DPO, a method to align diffusion models to human preferences by directly optimizing on human comparison data. Diffusion-DPO is adapted from the recently developed Direct Preference Optimization (DPO), a simpler alternative to RLHF which directly optimizes a policy that best satisfies human preferences under a classification objective. We re-formulate DPO to account for a diffusion model notion of likelihood, utilizing the evidence lower bound to derive a differentiable objective. Using the Pick-a-Pic dataset of 851K crowdsourced pairwise preferences, we fine-tune the base model of the state-of-the-art Stable Diffusion XL (SDXL)-1.0 model with Diffusion-DPO. Our fine-tuned base model significantly outperforms both base SDXL-1.0 and the larger SDXL-1.0 model consisting of an additional refinement model in human evaluation, improving visual appeal and prompt alignment. We also develop a variant that uses AI feedback and has comparable performance to training on human preferences, opening the door for scaling of diffusion model alignment methods.
PDF493February 8, 2026