Utiliser les retours humains pour affiner les modèles de diffusion sans aucun modèle de récompense
Using Human Feedback to Fine-tune Diffusion Models without Any Reward Model
November 22, 2023
Auteurs: Kai Yang, Jian Tao, Jiafei Lyu, Chunjiang Ge, Jiaxin Chen, Qimai Li, Weihan Shen, Xiaolong Zhu, Xiu Li
cs.AI
Résumé
L'utilisation de l'apprentissage par renforcement avec feedback humain (RLHF) a montré un potentiel significatif pour le réglage fin des modèles de diffusion. Les méthodes précédentes commencent par entraîner un modèle de récompense aligné sur les préférences humaines, puis exploitent des techniques de RL pour affiner les modèles sous-jacents. Cependant, la conception d'un modèle de récompense efficace nécessite des jeux de données étendus, une architecture optimale et un réglage manuel des hyperparamètres, rendant le processus à la fois long et coûteux. La méthode d'optimisation directe des préférences (DPO), efficace pour le réglage fin des grands modèles de langage, élimine la nécessité d'un modèle de récompense. Cependant, l'importante mémoire GPU requise par le processus de débruitage des modèles de diffusion empêche l'application directe de la méthode DPO. Pour résoudre ce problème, nous introduisons la méthode Direct Preference for Denoising Diffusion Policy Optimization (D3PO) pour affiner directement les modèles de diffusion. L'analyse théorique démontre que bien que D3PO omette l'entraînement d'un modèle de récompense, il fonctionne efficacement comme le modèle de récompense optimal entraîné à l'aide de données de feedback humain pour guider le processus d'apprentissage. Cette approche ne nécessite pas l'entraînement d'un modèle de récompense, se révélant plus directe, économique et minimisant la surcharge computationnelle. Dans les expériences, notre méthode utilise l'échelle relative des objectifs comme proxy pour les préférences humaines, fournissant des résultats comparables aux méthodes utilisant des récompenses de référence. De plus, D3PO démontre la capacité à réduire les taux de distorsion d'images et à générer des images plus sûres, surmontant les défis liés à l'absence de modèles de récompense robustes.
English
Using reinforcement learning with human feedback (RLHF) has shown significant
promise in fine-tuning diffusion models. Previous methods start by training a
reward model that aligns with human preferences, then leverage RL techniques to
fine-tune the underlying models. However, crafting an efficient reward model
demands extensive datasets, optimal architecture, and manual hyperparameter
tuning, making the process both time and cost-intensive. The direct preference
optimization (DPO) method, effective in fine-tuning large language models,
eliminates the necessity for a reward model. However, the extensive GPU memory
requirement of the diffusion model's denoising process hinders the direct
application of the DPO method. To address this issue, we introduce the Direct
Preference for Denoising Diffusion Policy Optimization (D3PO) method to
directly fine-tune diffusion models. The theoretical analysis demonstrates that
although D3PO omits training a reward model, it effectively functions as the
optimal reward model trained using human feedback data to guide the learning
process. This approach requires no training of a reward model, proving to be
more direct, cost-effective, and minimizing computational overhead. In
experiments, our method uses the relative scale of objectives as a proxy for
human preference, delivering comparable results to methods using ground-truth
rewards. Moreover, D3PO demonstrates the ability to reduce image distortion
rates and generate safer images, overcoming challenges lacking robust reward
models.