VARD: Ajuste fino eficiente y denso para modelos de difusión con aprendizaje por refuerzo basado en valores
VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL
May 21, 2025
Autores: Fengyuan Dai, Zifeng Zhuang, Yufei Huang, Siteng Huang, Bangyan Liao, Donglin Wang, Fajie Yuan
cs.AI
Resumen
Los modelos de difusión han surgido como herramientas generativas poderosas en diversos dominios, sin embargo, adaptar modelos preentrenados para exhibir propiedades específicas deseables sigue siendo un desafío. Si bien el aprendizaje por refuerzo (RL) ofrece una solución prometedora, los métodos actuales luchan por lograr simultáneamente un ajuste fino estable y eficiente, además de soportar recompensas no diferenciables. Además, su dependencia de recompensas dispersas proporciona una supervisión inadecuada durante los pasos intermedios, lo que a menudo resulta en una calidad de generación subóptima. Para abordar estas limitaciones, se requieren señales densas y diferenciables a lo largo del proceso de difusión. Por lo tanto, proponemos VAlue-based Reinforced Diffusion (VARD): un enfoque novedoso que primero aprende una función de valor que predice la expectativa de recompensas a partir de estados intermedios, y posteriormente utiliza esta función de valor con regularización KL para proporcionar una supervisión densa durante todo el proceso de generación. Nuestro método mantiene la proximidad al modelo preentrenado mientras permite un entrenamiento efectivo y estable mediante retropropagación. Los resultados experimentales demuestran que nuestro enfoque facilita una mejor guía de trayectorias, mejora la eficiencia del entrenamiento y amplía la aplicabilidad de RL a modelos de difusión optimizados para funciones de recompensa complejas y no diferenciables.
English
Diffusion models have emerged as powerful generative tools across various
domains, yet tailoring pre-trained models to exhibit specific desirable
properties remains challenging. While reinforcement learning (RL) offers a
promising solution,current methods struggle to simultaneously achieve stable,
efficient fine-tuning and support non-differentiable rewards. Furthermore,
their reliance on sparse rewards provides inadequate supervision during
intermediate steps, often resulting in suboptimal generation quality. To
address these limitations, dense and differentiable signals are required
throughout the diffusion process. Hence, we propose VAlue-based Reinforced
Diffusion (VARD): a novel approach that first learns a value function
predicting expection of rewards from intermediate states, and subsequently uses
this value function with KL regularization to provide dense supervision
throughout the generation process. Our method maintains proximity to the
pretrained model while enabling effective and stable training via
backpropagation. Experimental results demonstrate that our approach facilitates
better trajectory guidance, improves training efficiency and extends the
applicability of RL to diffusion models optimized for complex,
non-differentiable reward functions.Summary
AI-Generated Summary