Menselijke feedback gebruiken om diffusiemodellen te finetunen zonder enig beloningsmodel

Samenvatting

Het gebruik van reinforcement learning met menselijke feedback (RLHF) heeft aanzienlijke belofte getoond bij het finetunen van diffusiemodellen. Eerdere methoden beginnen met het trainen van een beloningsmodel dat aansluit bij menselijke voorkeuren, waarna RL-technieken worden ingezet om de onderliggende modellen te finetunen. Het ontwikkelen van een efficiënt beloningsmodel vereist echter uitgebreide datasets, een optimale architectuur en handmatige afstemming van hyperparameters, wat het proces zowel tijd- als kostintensief maakt. De direct preference optimization (DPO)-methode, die effectief is bij het finetunen van grote taalmodelen, elimineert de noodzaak van een beloningsmodel. De uitgebreide GPU-geheugenbehoefte van het denoisingsproces van diffusiemodellen belemmert echter de directe toepassing van de DPO-methode. Om dit probleem aan te pakken, introduceren we de Direct Preference for Denoising Diffusion Policy Optimization (D3PO)-methode om diffusiemodellen direct te finetunen. De theoretische analyse toont aan dat, hoewel D3PO het trainen van een beloningsmodel overslaat, het effectief functioneert als het optimale beloningsmodel dat is getraind met menselijke feedbackgegevens om het leerproces te sturen. Deze aanpak vereist geen training van een beloningsmodel, wat directer en kosteneffectiever is en de rekenkundige overhead minimaliseert. In experimenten gebruikt onze methode de relatieve schaal van doelen als een proxy voor menselijke voorkeur, wat vergelijkbare resultaten oplevert als methoden die gebruikmaken van grondwaarheid-beloningen. Bovendien toont D3PO aan dat het in staat is beeldvervormingspercentages te verminderen en veiligere afbeeldingen te genereren, waardoor uitdagingen worden overwonnen die het ontbreken van robuuste beloningsmodellen met zich meebrengen.

English

Using reinforcement learning with human feedback (RLHF) has shown significant promise in fine-tuning diffusion models. Previous methods start by training a reward model that aligns with human preferences, then leverage RL techniques to fine-tune the underlying models. However, crafting an efficient reward model demands extensive datasets, optimal architecture, and manual hyperparameter tuning, making the process both time and cost-intensive. The direct preference optimization (DPO) method, effective in fine-tuning large language models, eliminates the necessity for a reward model. However, the extensive GPU memory requirement of the diffusion model's denoising process hinders the direct application of the DPO method. To address this issue, we introduce the Direct Preference for Denoising Diffusion Policy Optimization (D3PO) method to directly fine-tune diffusion models. The theoretical analysis demonstrates that although D3PO omits training a reward model, it effectively functions as the optimal reward model trained using human feedback data to guide the learning process. This approach requires no training of a reward model, proving to be more direct, cost-effective, and minimizing computational overhead. In experiments, our method uses the relative scale of objectives as a proxy for human preference, delivering comparable results to methods using ground-truth rewards. Moreover, D3PO demonstrates the ability to reduce image distortion rates and generate safer images, overcoming challenges lacking robust reward models.

Menselijke feedback gebruiken om diffusiemodellen te finetunen zonder enig beloningsmodel

Using Human Feedback to Fine-tune Diffusion Models without Any Reward Model

Samenvatting

Support