ChatPaper.aiChatPaper

VARD: Эффективная и плотная тонкая настройка диффузионных моделей с использованием обучения с подкреплением на основе ценности

VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL

May 21, 2025
Авторы: Fengyuan Dai, Zifeng Zhuang, Yufei Huang, Siteng Huang, Bangyan Liao, Donglin Wang, Fajie Yuan
cs.AI

Аннотация

Диффузионные модели зарекомендовали себя как мощные генеративные инструменты в различных областях, однако адаптация предобученных моделей для демонстрации конкретных желаемых свойств остается сложной задачей. Хотя обучение с подкреплением (RL) предлагает перспективное решение, существующие методы сталкиваются с трудностями в одновременном достижении стабильной и эффективной тонкой настройки, а также поддержке недифференцируемых функций вознаграждения. Более того, их зависимость от редких вознаграждений обеспечивает недостаточное руководство на промежуточных этапах, что часто приводит к субоптимальному качеству генерации. Для устранения этих ограничений требуются плотные и дифференцируемые сигналы на протяжении всего процесса диффузии. Таким образом, мы предлагаем VAlue-based Reinforced Diffusion (VARD): новый подход, который сначала обучает функцию ценности, предсказывающую ожидаемые вознаграждения из промежуточных состояний, а затем использует эту функцию ценности с регуляризацией KL для обеспечения плотного руководства на протяжении всего процесса генерации. Наш метод сохраняет близость к предобученной модели, одновременно обеспечивая эффективное и стабильное обучение с помощью обратного распространения ошибки. Экспериментальные результаты демонстрируют, что наш подход способствует лучшему управлению траекториями, повышает эффективность обучения и расширяет применимость RL к диффузионным моделям, оптимизированным для сложных, недифференцируемых функций вознаграждения.
English
Diffusion models have emerged as powerful generative tools across various domains, yet tailoring pre-trained models to exhibit specific desirable properties remains challenging. While reinforcement learning (RL) offers a promising solution,current methods struggle to simultaneously achieve stable, efficient fine-tuning and support non-differentiable rewards. Furthermore, their reliance on sparse rewards provides inadequate supervision during intermediate steps, often resulting in suboptimal generation quality. To address these limitations, dense and differentiable signals are required throughout the diffusion process. Hence, we propose VAlue-based Reinforced Diffusion (VARD): a novel approach that first learns a value function predicting expection of rewards from intermediate states, and subsequently uses this value function with KL regularization to provide dense supervision throughout the generation process. Our method maintains proximity to the pretrained model while enabling effective and stable training via backpropagation. Experimental results demonstrate that our approach facilitates better trajectory guidance, improves training efficiency and extends the applicability of RL to diffusion models optimized for complex, non-differentiable reward functions.

Summary

AI-Generated Summary

PDF32May 22, 2025