自己対話による微調整を用いたテキストから画像生成のための拡散モデル
Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation
February 15, 2024
著者: Huizhuo Yuan, Zixiang Chen, Kaixuan Ji, Quanquan Gu
cs.AI
要旨
拡散モデルのファインチューニングは、生成AI(GenAI)分野において未開拓の領域であり、特に大規模言語モデル(LLM)のファインチューニングで達成された顕著な進歩と比較するとその傾向が顕著です。Stable Diffusion(SD)やSDXLのような最先端の拡散モデルは教師ありファインチューニングに依存していますが、一定量のデータを学習した後、その性能は必然的に頭打ちになります。最近では、人間の選好データを用いて拡散モデルをファインチューニングするために強化学習(RL)が採用されていますが、この手法では各テキストプロンプトに対して少なくとも2枚の画像(「勝者」と「敗者」の画像)が必要です。本論文では、拡散モデルの自己対戦型ファインチューニング(SPIN-Diffusion)と呼ばれる革新的な技術を提案します。この手法では、拡散モデルが自身の過去のバージョンと競争し、反復的な自己改善プロセスを促進します。私たちのアプローチは、従来の教師ありファインチューニングやRL戦略に代わる選択肢を提供し、モデルの性能とアライメントを大幅に向上させます。Pick-a-Picデータセットでの実験では、SPIN-Diffusionが初回のイテレーションから既存の教師ありファインチューニング手法を人間の選好アライメントと視覚的魅力の面で上回ることが明らかになりました。さらに、2回目のイテレーションでは、すべての指標においてRLHFベースの手法の性能を凌駕し、より少ないデータでこれらの結果を達成しました。
English
Fine-tuning Diffusion Models remains an underexplored frontier in generative
artificial intelligence (GenAI), especially when compared with the remarkable
progress made in fine-tuning Large Language Models (LLMs). While cutting-edge
diffusion models such as Stable Diffusion (SD) and SDXL rely on supervised
fine-tuning, their performance inevitably plateaus after seeing a certain
volume of data. Recently, reinforcement learning (RL) has been employed to
fine-tune diffusion models with human preference data, but it requires at least
two images ("winner" and "loser" images) for each text prompt. In this paper,
we introduce an innovative technique called self-play fine-tuning for diffusion
models (SPIN-Diffusion), where the diffusion model engages in competition with
its earlier versions, facilitating an iterative self-improvement process. Our
approach offers an alternative to conventional supervised fine-tuning and RL
strategies, significantly improving both model performance and alignment. Our
experiments on the Pick-a-Pic dataset reveal that SPIN-Diffusion outperforms
the existing supervised fine-tuning method in aspects of human preference
alignment and visual appeal right from its first iteration. By the second
iteration, it exceeds the performance of RLHF-based methods across all metrics,
achieving these results with less data.