Utilizzare il Feedback Umano per Affinare i Modelli di Diffusione senza Alcun Modello di Ricompensa
Using Human Feedback to Fine-tune Diffusion Models without Any Reward Model
November 22, 2023
Autori: Kai Yang, Jian Tao, Jiafei Lyu, Chunjiang Ge, Jiaxin Chen, Qimai Li, Weihan Shen, Xiaolong Zhu, Xiu Li
cs.AI
Abstract
L'utilizzo del reinforcement learning con feedback umano (RLHF) ha dimostrato un potenziale significativo nel fine-tuning dei modelli di diffusione. I metodi precedenti iniziano addestrando un modello di ricompensa allineato alle preferenze umane, per poi sfruttare tecniche di RL per ottimizzare i modelli sottostanti. Tuttavia, la creazione di un modello di ricompensa efficiente richiede dataset estesi, architetture ottimali e una regolazione manuale degli iperparametri, rendendo il processo sia dispendioso in termini di tempo che di costi. Il metodo di ottimizzazione diretta delle preferenze (DPO), efficace nel fine-tuning di grandi modelli linguistici, elimina la necessità di un modello di ricompensa. Tuttavia, l'elevato requisito di memoria GPU del processo di denoising dei modelli di diffusione ostacola l'applicazione diretta del metodo DPO. Per affrontare questo problema, introduciamo il metodo Direct Preference for Denoising Diffusion Policy Optimization (D3PO) per ottimizzare direttamente i modelli di diffusione. L'analisi teorica dimostra che, sebbene D3PO ometta l'addestramento di un modello di ricompensa, funziona efficacemente come il modello di ricompensa ottimale addestrato utilizzando dati di feedback umano per guidare il processo di apprendimento. Questo approccio non richiede l'addestramento di un modello di ricompensa, risultando più diretto, economico e riducendo al minimo l'overhead computazionale. Negli esperimenti, il nostro metodo utilizza la scala relativa degli obiettivi come proxy per le preferenze umane, ottenendo risultati comparabili a quelli dei metodi che utilizzano ricompense reali. Inoltre, D3PO dimostra la capacità di ridurre i tassi di distorsione delle immagini e di generare immagini più sicure, superando le sfide legate alla mancanza di modelli di ricompensa robusti.
English
Using reinforcement learning with human feedback (RLHF) has shown significant
promise in fine-tuning diffusion models. Previous methods start by training a
reward model that aligns with human preferences, then leverage RL techniques to
fine-tune the underlying models. However, crafting an efficient reward model
demands extensive datasets, optimal architecture, and manual hyperparameter
tuning, making the process both time and cost-intensive. The direct preference
optimization (DPO) method, effective in fine-tuning large language models,
eliminates the necessity for a reward model. However, the extensive GPU memory
requirement of the diffusion model's denoising process hinders the direct
application of the DPO method. To address this issue, we introduce the Direct
Preference for Denoising Diffusion Policy Optimization (D3PO) method to
directly fine-tune diffusion models. The theoretical analysis demonstrates that
although D3PO omits training a reward model, it effectively functions as the
optimal reward model trained using human feedback data to guide the learning
process. This approach requires no training of a reward model, proving to be
more direct, cost-effective, and minimizing computational overhead. In
experiments, our method uses the relative scale of objectives as a proxy for
human preference, delivering comparable results to methods using ground-truth
rewards. Moreover, D3PO demonstrates the ability to reduce image distortion
rates and generate safer images, overcoming challenges lacking robust reward
models.