ChatPaper.aiChatPaper

報酬モデルを用いず人間のフィードバックで拡散モデルをファインチューニングする方法 (注:元の英文がタイトルのみのため、自然な日本語のタイトルに変換しました。論文の要旨や本文があれば、より適切な翻訳が可能です)

Using Human Feedback to Fine-tune Diffusion Models without Any Reward Model

November 22, 2023
著者: Kai Yang, Jian Tao, Jiafei Lyu, Chunjiang Ge, Jiaxin Chen, Qimai Li, Weihan Shen, Xiaolong Zhu, Xiu Li
cs.AI

要旨

人間のフィードバックを用いた強化学習(RLHF)は、拡散モデルのファインチューニングにおいて大きな可能性を示しています。従来の手法では、人間の選好に沿った報酬モデルを学習した後、強化学習技術を活用して基盤モデルのファインチューニングを行います。しかし、効率的な報酬モデルの構築には大規模なデータセット、最適なアーキテクザ、手動によるハイパーパラメータ調整が必要であり、プロセスが時間とコストの両面で負担となっていました。大規模言語モデルのファインチューニングで効果的な直接選好最適化(DPO)手法は、報酬モデルを必要としませんが、拡散モデルのノイズ除去プロセスにおける大量のGPUメモリ要件がDPO手法の直接的な適用を妨げています。この問題を解決するため、我々は拡散モデルを直接ファインチューニングするD3PO(Direct Preference for Denoising Diffusion Policy Optimization)手法を提案します。理論分析により、D3POは報酬モデルの学習を省略しながらも、人間のフィードバックデータを用いて学習プロセスを導く最適な報酬モデルとして機能することが示されています。このアプローチは報酬モデルの学習を必要とせず、より直接的でコスト効率が高く、計算オーバーヘッドを最小化します。実験では、本手法は目的関数の相対的な尺度を人間の選好の代理として用いることで、真の報酬を用いる手法に匹敵する結果を達成しました。さらにD3POは、画像の歪み率を低減し、より安全な画像を生成する能力を示し、堅牢な報酬モデルが不足する課題を克服しています。
English
Using reinforcement learning with human feedback (RLHF) has shown significant promise in fine-tuning diffusion models. Previous methods start by training a reward model that aligns with human preferences, then leverage RL techniques to fine-tune the underlying models. However, crafting an efficient reward model demands extensive datasets, optimal architecture, and manual hyperparameter tuning, making the process both time and cost-intensive. The direct preference optimization (DPO) method, effective in fine-tuning large language models, eliminates the necessity for a reward model. However, the extensive GPU memory requirement of the diffusion model's denoising process hinders the direct application of the DPO method. To address this issue, we introduce the Direct Preference for Denoising Diffusion Policy Optimization (D3PO) method to directly fine-tune diffusion models. The theoretical analysis demonstrates that although D3PO omits training a reward model, it effectively functions as the optimal reward model trained using human feedback data to guide the learning process. This approach requires no training of a reward model, proving to be more direct, cost-effective, and minimizing computational overhead. In experiments, our method uses the relative scale of objectives as a proxy for human preference, delivering comparable results to methods using ground-truth rewards. Moreover, D3PO demonstrates the ability to reduce image distortion rates and generate safer images, overcoming challenges lacking robust reward models.
PDF285February 8, 2026