ChatPaper.aiChatPaper

Flash-DMD: Zu hochwertiger Bildgenerierung in wenigen Schritten durch effiziente Destillation und gemeinsames bestärkendes Lernen

Flash-DMD: Towards High-Fidelity Few-Step Image Generation with Efficient Distillation and Joint Reinforcement Learning

November 25, 2025
papers.authors: Guanjie Chen, Shirui Huang, Kai Liu, Jianchen Zhu, Xiaoye Qu, Peng Chen, Yu Cheng, Yifu Sun
cs.AI

papers.abstract

Diffusionsmodelle haben sich als führende Klasse generativer Modelle etabliert, doch ihr iterativer Sampling-Prozess bleibt rechenintensiv. Timestep-Distillation ist eine vielversprechende Technik zur Beschleunigung der Generierung, erfordert jedoch oft umfangreiches Training und führt zu Qualitätseinbußen bei den Bildern. Darüber hinaus ist die Feinabstimmung dieser distillierten Modelle für spezifische Ziele, wie ästhetische Anziehungskraft oder Benutzerpräferenzen, mittels Reinforcement Learning (RL) notorisch instabil und neigt leicht zu Reward Hacking. In dieser Arbeit stellen wir Flash-DMD vor, ein neuartiges Framework, das eine schnelle Konvergenz durch Distillation und gleichzeitige RL-basierte Verfeinerung ermöglicht. Konkret schlagen wir erstens eine effiziente, zeitschrittbewusste Distillationsstrategie vor, die die Trainingskosten deutlich reduziert und bei gleichzeitig erhöhter Realitätsnähe DMD2 übertrifft – und das mit nur 2,1 % von dessen Trainingskosten. Zweitens führen wir ein gemeinsames Trainingsschema ein, bei dem das Modell mit einem RL-Ziel feinabgestimmt wird, während das Timestep-Distillationstraining parallel weiterläuft. Wir zeigen, dass der stabile, wohldefinierte Verlust aus der fortlaufenden Distillation als leistungsstarker Regularisierer wirkt, der den RL-Trainingsprozess effektiv stabilisiert und einen Policy Collapse verhindert. Umfangreiche Experimente mit score-basierten Modellen und Flow-Matching-Modellen belegen, dass unser vorgeschlagenes Flash-DMD nicht nur signifikant schneller konvergiert, sondern auch state-of-the-art Generierungsqualität im Few-Step-Sampling-Regime erreicht und dabei bestehende Methoden in visueller Qualität, menschlicher Präferenz und Text-Bild-Übereinstimmung übertrifft. Unsere Arbeit stellt ein effektives Paradigma für das Training effizienter, hochpräziser und stabiler generativer Modelle dar. Der Code wird in Kürze verfügbar sein.
English
Diffusion Models have emerged as a leading class of generative models, yet their iterative sampling process remains computationally expensive. Timestep distillation is a promising technique to accelerate generation, but it often requires extensive training and leads to image quality degradation. Furthermore, fine-tuning these distilled models for specific objectives, such as aesthetic appeal or user preference, using Reinforcement Learning (RL) is notoriously unstable and easily falls into reward hacking. In this work, we introduce Flash-DMD, a novel framework that enables fast convergence with distillation and joint RL-based refinement. Specifically, we first propose an efficient timestep-aware distillation strategy that significantly reduces training cost with enhanced realism, outperforming DMD2 with only 2.1% its training cost. Second, we introduce a joint training scheme where the model is fine-tuned with an RL objective while the timestep distillation training continues simultaneously. We demonstrate that the stable, well-defined loss from the ongoing distillation acts as a powerful regularizer, effectively stabilizing the RL training process and preventing policy collapse. Extensive experiments on score-based and flow matching models show that our proposed Flash-DMD not only converges significantly faster but also achieves state-of-the-art generation quality in the few-step sampling regime, outperforming existing methods in visual quality, human preference, and text-image alignment metrics. Our work presents an effective paradigm for training efficient, high-fidelity, and stable generative models. Codes are coming soon.
PDF191December 3, 2025