ChatPaper.aiChatPaper

VARD: Ottimizzazione Efficiente e Densa per Modelli di Diffusione con Apprendimento per Rinforzo basato su Valori

VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL

May 21, 2025
Autori: Fengyuan Dai, Zifeng Zhuang, Yufei Huang, Siteng Huang, Bangyan Liao, Donglin Wang, Fajie Yuan
cs.AI

Abstract

I modelli di diffusione sono emersi come potenti strumenti generativi in vari domini, ma adattare modelli pre-addestrati per esibire specifiche proprietà desiderabili rimane una sfida. Sebbene l'apprendimento per rinforzo (RL) offra una soluzione promettente, i metodi attuali faticano a raggiungere simultaneamente un fine-tuning stabile ed efficiente e a supportare ricompense non differenziabili. Inoltre, la loro dipendenza da ricompense sparse fornisce una supervisione inadeguata durante i passaggi intermedi, spesso portando a una qualità di generazione subottimale. Per affrontare queste limitazioni, sono necessari segnali densi e differenziabili durante l'intero processo di diffusione. Pertanto, proponiamo VAlue-based Reinforced Diffusion (VARD): un approccio innovativo che prima apprende una funzione di valore che predice l'aspettativa delle ricompense dagli stati intermedi, e successivamente utilizza questa funzione di valore con regolarizzazione KL per fornire una supervisione densa durante il processo di generazione. Il nostro metodo mantiene la prossimità al modello pre-addestrato consentendo al contempo un addestramento efficace e stabile tramite backpropagation. I risultati sperimentali dimostrano che il nostro approccio facilita una migliore guida della traiettoria, migliora l'efficienza dell'addestramento e amplia l'applicabilità dell'RL ai modelli di diffusione ottimizzati per funzioni di ricompensa complesse e non differenziabili.
English
Diffusion models have emerged as powerful generative tools across various domains, yet tailoring pre-trained models to exhibit specific desirable properties remains challenging. While reinforcement learning (RL) offers a promising solution,current methods struggle to simultaneously achieve stable, efficient fine-tuning and support non-differentiable rewards. Furthermore, their reliance on sparse rewards provides inadequate supervision during intermediate steps, often resulting in suboptimal generation quality. To address these limitations, dense and differentiable signals are required throughout the diffusion process. Hence, we propose VAlue-based Reinforced Diffusion (VARD): a novel approach that first learns a value function predicting expection of rewards from intermediate states, and subsequently uses this value function with KL regularization to provide dense supervision throughout the generation process. Our method maintains proximity to the pretrained model while enabling effective and stable training via backpropagation. Experimental results demonstrate that our approach facilitates better trajectory guidance, improves training efficiency and extends the applicability of RL to diffusion models optimized for complex, non-differentiable reward functions.
PDF52May 22, 2025