VARD: 값 기반 강화 학습을 통한 확산 모델의 효율적이고 조밀한 미세 조정
VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL
May 21, 2025
저자: Fengyuan Dai, Zifeng Zhuang, Yufei Huang, Siteng Huang, Bangyan Liao, Donglin Wang, Fajie Yuan
cs.AI
초록
디퓨전 모델은 다양한 분야에서 강력한 생성 도구로 부상했지만, 사전 학습된 모델을 특정한 바람직한 속성을 나타내도록 맞춤화하는 것은 여전히 어려운 과제입니다. 강화 학습(RL)은 유망한 해결책을 제공하지만, 현재의 방법들은 안정적이고 효율적인 미세 조정을 동시에 달성하고 비미분 가능한 보상을 지원하는 데 어려움을 겪고 있습니다. 더욱이, 희소한 보상에 대한 의존성은 중간 단계에서 충분한 지도를 제공하지 못해 종종 최적이 아닌 생성 품질을 초래합니다. 이러한 한계를 해결하기 위해서는 디퓨전 과정 전반에 걸쳐 밀집하고 미분 가능한 신호가 필요합니다. 따라서 우리는 VAlue-based Reinforced Diffusion (VARD)를 제안합니다: 이는 먼저 중간 상태에서의 보상 기대치를 예측하는 가치 함수를 학습한 후, 이 가치 함수를 KL 정규화와 함께 사용하여 생성 과정 전반에 걸쳐 밀집한 지도를 제공하는 새로운 접근 방식입니다. 우리의 방법은 사전 학습된 모델에 근접성을 유지하면서 역전파를 통해 효과적이고 안정적인 학습을 가능하게 합니다. 실험 결과는 우리의 접근 방식이 더 나은 궤적 안내를 용이하게 하고, 학습 효율성을 개선하며, 복잡하고 비미분 가능한 보상 함수에 최적화된 디퓨전 모델에 RL의 적용 가능성을 확장함을 보여줍니다.
English
Diffusion models have emerged as powerful generative tools across various
domains, yet tailoring pre-trained models to exhibit specific desirable
properties remains challenging. While reinforcement learning (RL) offers a
promising solution,current methods struggle to simultaneously achieve stable,
efficient fine-tuning and support non-differentiable rewards. Furthermore,
their reliance on sparse rewards provides inadequate supervision during
intermediate steps, often resulting in suboptimal generation quality. To
address these limitations, dense and differentiable signals are required
throughout the diffusion process. Hence, we propose VAlue-based Reinforced
Diffusion (VARD): a novel approach that first learns a value function
predicting expection of rewards from intermediate states, and subsequently uses
this value function with KL regularization to provide dense supervision
throughout the generation process. Our method maintains proximity to the
pretrained model while enabling effective and stable training via
backpropagation. Experimental results demonstrate that our approach facilitates
better trajectory guidance, improves training efficiency and extends the
applicability of RL to diffusion models optimized for complex,
non-differentiable reward functions.Summary
AI-Generated Summary