VARD: 価値ベース強化学習を用いた拡散モデルの効率的かつ高密度なファインチューニング
VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL
May 21, 2025
著者: Fengyuan Dai, Zifeng Zhuang, Yufei Huang, Siteng Huang, Bangyan Liao, Donglin Wang, Fajie Yuan
cs.AI
要旨
拡散モデルは様々な領域で強力な生成ツールとして登場していますが、事前学習済みモデルを特定の望ましい特性を持つように調整することは依然として困難です。強化学習(RL)は有望な解決策を提供しますが、現在の手法では安定した効率的なファインチューニングと非微分可能な報酬のサポートを同時に達成することが難しい状況です。さらに、これらの手法はスパースな報酬に依存しているため、中間ステップでの監督が不十分で、しばしば最適ではない生成品質をもたらします。これらの制限を解決するためには、拡散プロセス全体を通じて密で微分可能な信号が必要です。そこで我々は、VAlue-based Reinforced Diffusion(VARD)を提案します。この新しいアプローチでは、まず中間状態からの報酬期待値を予測する価値関数を学習し、その後この価値関数をKL正則化と共に使用して生成プロセス全体にわたって密な監督を提供します。我々の手法は、事前学習済みモデルに近接性を維持しつつ、バックプロパゲーションによる効果的で安定した学習を可能にします。実験結果は、我々のアプローチがより良い軌道ガイダンスを促進し、学習効率を向上させ、複雑で非微分可能な報酬関数に最適化された拡散モデルへのRLの適用性を拡張することを示しています。
English
Diffusion models have emerged as powerful generative tools across various
domains, yet tailoring pre-trained models to exhibit specific desirable
properties remains challenging. While reinforcement learning (RL) offers a
promising solution,current methods struggle to simultaneously achieve stable,
efficient fine-tuning and support non-differentiable rewards. Furthermore,
their reliance on sparse rewards provides inadequate supervision during
intermediate steps, often resulting in suboptimal generation quality. To
address these limitations, dense and differentiable signals are required
throughout the diffusion process. Hence, we propose VAlue-based Reinforced
Diffusion (VARD): a novel approach that first learns a value function
predicting expection of rewards from intermediate states, and subsequently uses
this value function with KL regularization to provide dense supervision
throughout the generation process. Our method maintains proximity to the
pretrained model while enabling effective and stable training via
backpropagation. Experimental results demonstrate that our approach facilitates
better trajectory guidance, improves training efficiency and extends the
applicability of RL to diffusion models optimized for complex,
non-differentiable reward functions.Summary
AI-Generated Summary