Utilizzare il Feedback Umano per Affinare i Modelli di Diffusione senza Alcun Modello di Ricompensa

Abstract

L'utilizzo del reinforcement learning con feedback umano (RLHF) ha dimostrato un potenziale significativo nel fine-tuning dei modelli di diffusione. I metodi precedenti iniziano addestrando un modello di ricompensa allineato alle preferenze umane, per poi sfruttare tecniche di RL per ottimizzare i modelli sottostanti. Tuttavia, la creazione di un modello di ricompensa efficiente richiede dataset estesi, architetture ottimali e una regolazione manuale degli iperparametri, rendendo il processo sia dispendioso in termini di tempo che di costi. Il metodo di ottimizzazione diretta delle preferenze (DPO), efficace nel fine-tuning di grandi modelli linguistici, elimina la necessità di un modello di ricompensa. Tuttavia, l'elevato requisito di memoria GPU del processo di denoising dei modelli di diffusione ostacola l'applicazione diretta del metodo DPO. Per affrontare questo problema, introduciamo il metodo Direct Preference for Denoising Diffusion Policy Optimization (D3PO) per ottimizzare direttamente i modelli di diffusione. L'analisi teorica dimostra che, sebbene D3PO ometta l'addestramento di un modello di ricompensa, funziona efficacemente come il modello di ricompensa ottimale addestrato utilizzando dati di feedback umano per guidare il processo di apprendimento. Questo approccio non richiede l'addestramento di un modello di ricompensa, risultando più diretto, economico e riducendo al minimo l'overhead computazionale. Negli esperimenti, il nostro metodo utilizza la scala relativa degli obiettivi come proxy per le preferenze umane, ottenendo risultati comparabili a quelli dei metodi che utilizzano ricompense reali. Inoltre, D3PO dimostra la capacità di ridurre i tassi di distorsione delle immagini e di generare immagini più sicure, superando le sfide legate alla mancanza di modelli di ricompensa robusti.

English

Using reinforcement learning with human feedback (RLHF) has shown significant promise in fine-tuning diffusion models. Previous methods start by training a reward model that aligns with human preferences, then leverage RL techniques to fine-tune the underlying models. However, crafting an efficient reward model demands extensive datasets, optimal architecture, and manual hyperparameter tuning, making the process both time and cost-intensive. The direct preference optimization (DPO) method, effective in fine-tuning large language models, eliminates the necessity for a reward model. However, the extensive GPU memory requirement of the diffusion model's denoising process hinders the direct application of the DPO method. To address this issue, we introduce the Direct Preference for Denoising Diffusion Policy Optimization (D3PO) method to directly fine-tune diffusion models. The theoretical analysis demonstrates that although D3PO omits training a reward model, it effectively functions as the optimal reward model trained using human feedback data to guide the learning process. This approach requires no training of a reward model, proving to be more direct, cost-effective, and minimizing computational overhead. In experiments, our method uses the relative scale of objectives as a proxy for human preference, delivering comparable results to methods using ground-truth rewards. Moreover, D3PO demonstrates the ability to reduce image distortion rates and generate safer images, overcoming challenges lacking robust reward models.

Utilizzare il Feedback Umano per Affinare i Modelli di Diffusione senza Alcun Modello di Ricompensa

Using Human Feedback to Fine-tune Diffusion Models without Any Reward Model

Abstract

Support