ChatPaper.aiChatPaper

VARD: Effizientes und dichtes Feinabstimmen von Diffusionsmodellen mit wertbasiertem Reinforcement Learning

VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL

May 21, 2025
Autoren: Fengyuan Dai, Zifeng Zhuang, Yufei Huang, Siteng Huang, Bangyan Liao, Donglin Wang, Fajie Yuan
cs.AI

Zusammenfassung

Diffusionsmodelle haben sich als leistungsstarke generative Werkzeuge in verschiedenen Domänen etabliert, doch die Anpassung vortrainierter Modelle, um spezifische wünschenswerte Eigenschaften zu zeigen, bleibt eine Herausforderung. Während Reinforcement Learning (RL) eine vielversprechende Lösung bietet, kämpfen aktuelle Methoden damit, gleichzeitig eine stabile, effiziente Feinabstimmung zu erreichen und nicht-differenzierbare Belohnungen zu unterstützen. Darüber hinaus bietet ihre Abhängigkeit von spärlichen Belohnungen eine unzureichende Überwachung während der Zwischenschritte, was oft zu suboptimaler Generierungsqualität führt. Um diese Einschränkungen zu überwinden, sind dichte und differenzierbare Signale während des gesamten Diffusionsprozesses erforderlich. Daher schlagen wir VAlue-based Reinforced Diffusion (VARD) vor: einen neuartigen Ansatz, der zunächst eine Wertfunktion lernt, die die erwarteten Belohnungen aus Zwischenzuständen vorhersagt, und diese Wertfunktion anschließend mit KL-Regularisierung verwendet, um eine dichte Überwachung während des gesamten Generierungsprozesses zu ermöglichen. Unsere Methode bleibt in der Nähe des vortrainierten Modells, ermöglicht jedoch eine effektive und stabile Training über Backpropagation. Experimentelle Ergebnisse zeigen, dass unser Ansatz eine bessere Trajektorienführung ermöglicht, die Trainingseffizienz verbessert und die Anwendbarkeit von RL auf Diffusionsmodelle erweitert, die für komplexe, nicht-differenzierbare Belohnungsfunktionen optimiert sind.
English
Diffusion models have emerged as powerful generative tools across various domains, yet tailoring pre-trained models to exhibit specific desirable properties remains challenging. While reinforcement learning (RL) offers a promising solution,current methods struggle to simultaneously achieve stable, efficient fine-tuning and support non-differentiable rewards. Furthermore, their reliance on sparse rewards provides inadequate supervision during intermediate steps, often resulting in suboptimal generation quality. To address these limitations, dense and differentiable signals are required throughout the diffusion process. Hence, we propose VAlue-based Reinforced Diffusion (VARD): a novel approach that first learns a value function predicting expection of rewards from intermediate states, and subsequently uses this value function with KL regularization to provide dense supervision throughout the generation process. Our method maintains proximity to the pretrained model while enabling effective and stable training via backpropagation. Experimental results demonstrate that our approach facilitates better trajectory guidance, improves training efficiency and extends the applicability of RL to diffusion models optimized for complex, non-differentiable reward functions.

Summary

AI-Generated Summary

PDF32May 22, 2025