VARD: Ajuste fino eficiente y denso para modelos de difusión con aprendizaje por refuerzo basado en valores

Resumen

Los modelos de difusión han surgido como herramientas generativas poderosas en diversos dominios, sin embargo, adaptar modelos preentrenados para exhibir propiedades específicas deseables sigue siendo un desafío. Si bien el aprendizaje por refuerzo (RL) ofrece una solución prometedora, los métodos actuales luchan por lograr simultáneamente un ajuste fino estable y eficiente, además de soportar recompensas no diferenciables. Además, su dependencia de recompensas dispersas proporciona una supervisión inadecuada durante los pasos intermedios, lo que a menudo resulta en una calidad de generación subóptima. Para abordar estas limitaciones, se requieren señales densas y diferenciables a lo largo del proceso de difusión. Por lo tanto, proponemos VAlue-based Reinforced Diffusion (VARD): un enfoque novedoso que primero aprende una función de valor que predice la expectativa de recompensas a partir de estados intermedios, y posteriormente utiliza esta función de valor con regularización KL para proporcionar una supervisión densa durante todo el proceso de generación. Nuestro método mantiene la proximidad al modelo preentrenado mientras permite un entrenamiento efectivo y estable mediante retropropagación. Los resultados experimentales demuestran que nuestro enfoque facilita una mejor guía de trayectorias, mejora la eficiencia del entrenamiento y amplía la aplicabilidad de RL a modelos de difusión optimizados para funciones de recompensa complejas y no diferenciables.

English

Diffusion models have emerged as powerful generative tools across various domains, yet tailoring pre-trained models to exhibit specific desirable properties remains challenging. While reinforcement learning (RL) offers a promising solution,current methods struggle to simultaneously achieve stable, efficient fine-tuning and support non-differentiable rewards. Furthermore, their reliance on sparse rewards provides inadequate supervision during intermediate steps, often resulting in suboptimal generation quality. To address these limitations, dense and differentiable signals are required throughout the diffusion process. Hence, we propose VAlue-based Reinforced Diffusion (VARD): a novel approach that first learns a value function predicting expection of rewards from intermediate states, and subsequently uses this value function with KL regularization to provide dense supervision throughout the generation process. Our method maintains proximity to the pretrained model while enabling effective and stable training via backpropagation. Experimental results demonstrate that our approach facilitates better trajectory guidance, improves training efficiency and extends the applicability of RL to diffusion models optimized for complex, non-differentiable reward functions.

VARD: Ajuste fino eficiente y denso para modelos de difusión con aprendizaje por refuerzo basado en valores

VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL

Resumen

Support