VARD: Эффективная и плотная тонкая настройка диффузионных моделей с использованием обучения с подкреплением на основе ценности
VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL
May 21, 2025
Авторы: Fengyuan Dai, Zifeng Zhuang, Yufei Huang, Siteng Huang, Bangyan Liao, Donglin Wang, Fajie Yuan
cs.AI
Аннотация
Диффузионные модели зарекомендовали себя как мощные генеративные инструменты в различных областях, однако адаптация предобученных моделей для демонстрации конкретных желаемых свойств остается сложной задачей. Хотя обучение с подкреплением (RL) предлагает перспективное решение, существующие методы сталкиваются с трудностями в одновременном достижении стабильной и эффективной тонкой настройки, а также поддержке недифференцируемых функций вознаграждения. Более того, их зависимость от редких вознаграждений обеспечивает недостаточное руководство на промежуточных этапах, что часто приводит к субоптимальному качеству генерации. Для устранения этих ограничений требуются плотные и дифференцируемые сигналы на протяжении всего процесса диффузии. Таким образом, мы предлагаем VAlue-based Reinforced Diffusion (VARD): новый подход, который сначала обучает функцию ценности, предсказывающую ожидаемые вознаграждения из промежуточных состояний, а затем использует эту функцию ценности с регуляризацией KL для обеспечения плотного руководства на протяжении всего процесса генерации. Наш метод сохраняет близость к предобученной модели, одновременно обеспечивая эффективное и стабильное обучение с помощью обратного распространения ошибки. Экспериментальные результаты демонстрируют, что наш подход способствует лучшему управлению траекториями, повышает эффективность обучения и расширяет применимость RL к диффузионным моделям, оптимизированным для сложных, недифференцируемых функций вознаграждения.
English
Diffusion models have emerged as powerful generative tools across various
domains, yet tailoring pre-trained models to exhibit specific desirable
properties remains challenging. While reinforcement learning (RL) offers a
promising solution,current methods struggle to simultaneously achieve stable,
efficient fine-tuning and support non-differentiable rewards. Furthermore,
their reliance on sparse rewards provides inadequate supervision during
intermediate steps, often resulting in suboptimal generation quality. To
address these limitations, dense and differentiable signals are required
throughout the diffusion process. Hence, we propose VAlue-based Reinforced
Diffusion (VARD): a novel approach that first learns a value function
predicting expection of rewards from intermediate states, and subsequently uses
this value function with KL regularization to provide dense supervision
throughout the generation process. Our method maintains proximity to the
pretrained model while enabling effective and stable training via
backpropagation. Experimental results demonstrate that our approach facilitates
better trajectory guidance, improves training efficiency and extends the
applicability of RL to diffusion models optimized for complex,
non-differentiable reward functions.Summary
AI-Generated Summary