ChatPaper.aiChatPaper

VARD: Efficiënte en Dichte Fine-Tuning voor Diffusiemodellen met Waardegebaseerde RL

VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL

May 21, 2025
Auteurs: Fengyuan Dai, Zifeng Zhuang, Yufei Huang, Siteng Huang, Bangyan Liao, Donglin Wang, Fajie Yuan
cs.AI

Samenvatting

Diffusiemodellen zijn krachtige generatieve hulpmiddelen geworden in verschillende domeinen, maar het aanpassen van vooraf getrainde modellen om specifieke gewenste eigenschappen te vertonen blijft een uitdaging. Hoewel reinforcement learning (RL) een veelbelovende oplossing biedt, hebben huidige methoden moeite om tegelijkertijd stabiele, efficiënte fine-tuning te bereiken en niet-differentieerbare beloningen te ondersteunen. Bovendien biedt hun afhankelijkheid van schaarse beloningen onvoldoende begeleiding tijdens tussenstappen, wat vaak resulteert in suboptimale generatiekwaliteit. Om deze beperkingen aan te pakken, zijn dichte en differentieerbare signalen nodig gedurende het hele diffusieproces. Daarom stellen we VAlue-based Reinforced Diffusion (VARD) voor: een nieuwe aanpak die eerst een waardefunctie leert die de verwachting van beloningen uit tussenliggende toestanden voorspelt, en vervolgens deze waardefunctie gebruikt met KL-regularisatie om dichte begeleiding te bieden gedurende het generatieproces. Onze methode blijft dicht bij het vooraf getrainde model terwijl het effectieve en stabiele training via backpropagation mogelijk maakt. Experimentele resultaten tonen aan dat onze aanpak betere trajectbegeleiding faciliteert, de trainings efficiëntie verbetert en de toepasbaarheid van RL uitbreidt naar diffusiemodellen die zijn geoptimaliseerd voor complexe, niet-differentieerbare beloningsfuncties.
English
Diffusion models have emerged as powerful generative tools across various domains, yet tailoring pre-trained models to exhibit specific desirable properties remains challenging. While reinforcement learning (RL) offers a promising solution,current methods struggle to simultaneously achieve stable, efficient fine-tuning and support non-differentiable rewards. Furthermore, their reliance on sparse rewards provides inadequate supervision during intermediate steps, often resulting in suboptimal generation quality. To address these limitations, dense and differentiable signals are required throughout the diffusion process. Hence, we propose VAlue-based Reinforced Diffusion (VARD): a novel approach that first learns a value function predicting expection of rewards from intermediate states, and subsequently uses this value function with KL regularization to provide dense supervision throughout the generation process. Our method maintains proximity to the pretrained model while enabling effective and stable training via backpropagation. Experimental results demonstrate that our approach facilitates better trajectory guidance, improves training efficiency and extends the applicability of RL to diffusion models optimized for complex, non-differentiable reward functions.
PDF52May 22, 2025