VARD : Réglage fin efficace et dense pour les modèles de diffusion avec apprentissage par renforcement basé sur la valeur
VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL
May 21, 2025
Auteurs: Fengyuan Dai, Zifeng Zhuang, Yufei Huang, Siteng Huang, Bangyan Liao, Donglin Wang, Fajie Yuan
cs.AI
Résumé
Les modèles de diffusion se sont imposés comme des outils génératifs puissants dans divers domaines, mais l'adaptation de modèles pré-entraînés pour qu'ils présentent des propriétés spécifiques souhaitables reste un défi. Bien que l'apprentissage par renforcement (RL) offre une solution prometteuse, les méthodes actuelles peinent à concilier un réglage fin stable et efficace avec la prise en charge de récompenses non différentiables. De plus, leur dépendance à des récompenses éparses fournit une supervision inadéquate lors des étapes intermédiaires, ce qui se traduit souvent par une qualité de génération sous-optimale. Pour surmonter ces limitations, des signaux denses et différentiables sont nécessaires tout au long du processus de diffusion. Nous proposons donc VAlue-based Reinforced Diffusion (VARD) : une approche novatrice qui apprend d'abord une fonction de valeur prédisant l'espérance des récompenses à partir d'états intermédiaires, puis utilise cette fonction de valeur avec une régularisation KL pour fournir une supervision dense tout au long du processus de génération. Notre méthode maintient une proximité avec le modèle pré-entraîné tout en permettant un entraînement efficace et stable via la rétropropagation. Les résultats expérimentaux montrent que notre approche facilite un meilleur guidage des trajectoires, améliore l'efficacité de l'entraînement et étend l'applicabilité du RL aux modèles de diffusion optimisés pour des fonctions de récompense complexes et non différentiables.
English
Diffusion models have emerged as powerful generative tools across various
domains, yet tailoring pre-trained models to exhibit specific desirable
properties remains challenging. While reinforcement learning (RL) offers a
promising solution,current methods struggle to simultaneously achieve stable,
efficient fine-tuning and support non-differentiable rewards. Furthermore,
their reliance on sparse rewards provides inadequate supervision during
intermediate steps, often resulting in suboptimal generation quality. To
address these limitations, dense and differentiable signals are required
throughout the diffusion process. Hence, we propose VAlue-based Reinforced
Diffusion (VARD): a novel approach that first learns a value function
predicting expection of rewards from intermediate states, and subsequently uses
this value function with KL regularization to provide dense supervision
throughout the generation process. Our method maintains proximity to the
pretrained model while enabling effective and stable training via
backpropagation. Experimental results demonstrate that our approach facilitates
better trajectory guidance, improves training efficiency and extends the
applicability of RL to diffusion models optimized for complex,
non-differentiable reward functions.Summary
AI-Generated Summary