ChatPaper.aiChatPaper

VARD: Ajuste Fino Eficiente e Densos para Modelos de Difusão com Aprendizado por Reforço Baseado em Valor

VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL

May 21, 2025
Autores: Fengyuan Dai, Zifeng Zhuang, Yufei Huang, Siteng Huang, Bangyan Liao, Donglin Wang, Fajie Yuan
cs.AI

Resumo

Os modelos de difusão surgiram como ferramentas generativas poderosas em diversos domínios, mas adaptar modelos pré-treinados para exibir propriedades específicas desejáveis continua sendo um desafio. Embora o aprendizado por reforço (RL) ofereça uma solução promissora, os métodos atuais lutam para alcançar simultaneamente um ajuste fino estável e eficiente e suportar recompensas não diferenciáveis. Além disso, sua dependência de recompensas esparsas fornece supervisão inadequada durante as etapas intermediárias, frequentemente resultando em qualidade de geração subótima. Para abordar essas limitações, são necessários sinais densos e diferenciáveis ao longo do processo de difusão. Portanto, propomos o VAlue-based Reinforced Diffusion (VARD): uma abordagem inovadora que primeiro aprende uma função de valor que prevê a expectativa de recompensas a partir de estados intermediários e, em seguida, usa essa função de valor com regularização KL para fornecer supervisão densa durante o processo de geração. Nosso método mantém a proximidade com o modelo pré-treinado, ao mesmo tempo em que permite um treinamento eficaz e estável via retropropagação. Resultados experimentais demonstram que nossa abordagem facilita uma melhor orientação de trajetória, melhora a eficiência do treinamento e estende a aplicabilidade do RL a modelos de difusão otimizados para funções de recompensa complexas e não diferenciáveis.
English
Diffusion models have emerged as powerful generative tools across various domains, yet tailoring pre-trained models to exhibit specific desirable properties remains challenging. While reinforcement learning (RL) offers a promising solution,current methods struggle to simultaneously achieve stable, efficient fine-tuning and support non-differentiable rewards. Furthermore, their reliance on sparse rewards provides inadequate supervision during intermediate steps, often resulting in suboptimal generation quality. To address these limitations, dense and differentiable signals are required throughout the diffusion process. Hence, we propose VAlue-based Reinforced Diffusion (VARD): a novel approach that first learns a value function predicting expection of rewards from intermediate states, and subsequently uses this value function with KL regularization to provide dense supervision throughout the generation process. Our method maintains proximity to the pretrained model while enabling effective and stable training via backpropagation. Experimental results demonstrate that our approach facilitates better trajectory guidance, improves training efficiency and extends the applicability of RL to diffusion models optimized for complex, non-differentiable reward functions.
PDF52December 8, 2025