Flash-DMD: Op Weg Naar Hoogwaardige Beeldgeneratie in Weinig Stappen met Efficiënte Distillatie en Gezamenlijke Versterkingsleren
Flash-DMD: Towards High-Fidelity Few-Step Image Generation with Efficient Distillation and Joint Reinforcement Learning
November 25, 2025
Auteurs: Guanjie Chen, Shirui Huang, Kai Liu, Jianchen Zhu, Xiaoye Qu, Peng Chen, Yu Cheng, Yifu Sun
cs.AI
Samenvatting
Diffusiemodellen zijn naar voren gekomen als een toonaangevende klasse van generatieve modellen, maar hun iteratieve samplingproces blijft rekenkundig kostbaar. Timestep-distillatie is een veelbelovende techniek om de generatie te versnellen, maar vereist vaak uitgebreide training en leidt tot kwaliteitsvermindering van afbeeldingen. Bovendien is het finetunen van deze gedistilleerde modellen voor specifieke doelstellingen, zoals esthetische aantrekkingskracht of gebruikersvoorkeur, met Reinforcement Learning (RL) berucht om zijn instabiliteit en vatbaarheid voor reward hacking. In dit werk introduceren we Flash-DMD, een nieuw raamwerk dat snelle convergentie met distillatie en gezamenlijke RL-gebaseerde verfijning mogelijk maakt. Specifiek stellen we allereerst een efficiënte timestep-bewuste distillatiestrategie voor die de trainingskosten aanzienlijk reduceert met een verbeterde realiteit, en dat DMD2 overtreft met slechts 2,1% van diens trainingskosten. Ten tweede introduceren we een gezamenlijk trainingsschema waarbij het model wordt gefinetuned met een RL-doelstelling, terwijl de timestep-distillatietraining gelijktijdig doorgaat. We tonen aan dat de stabiele, goed gedefinieerde loss van de doorlopende distillatie fungeert als een krachtige regularisator, die het RL-trainingsproces effectief stabiliseert en beleidsinstituting voorkomt. Uitgebreide experimenten met score-gebaseerde en flow matching-modellen laten zien dat onze voorgestelde Flash-DMD niet alleen significant sneller convergeert, maar ook state-of-the-art generatiekwaliteit bereikt in het few-step samplingregime, en bestaande methoden overtreft in visuele kwaliteit, menselijke voorkeur en tekst-afbeelding-alignatiemetrieken. Ons werk presenteert een effectief paradigma voor het trainen van efficiënte, hoogwaardige en stabiele generatieve modellen. Code zal binnenkort beschikbaar komen.
English
Diffusion Models have emerged as a leading class of generative models, yet their iterative sampling process remains computationally expensive. Timestep distillation is a promising technique to accelerate generation, but it often requires extensive training and leads to image quality degradation. Furthermore, fine-tuning these distilled models for specific objectives, such as aesthetic appeal or user preference, using Reinforcement Learning (RL) is notoriously unstable and easily falls into reward hacking. In this work, we introduce Flash-DMD, a novel framework that enables fast convergence with distillation and joint RL-based refinement. Specifically, we first propose an efficient timestep-aware distillation strategy that significantly reduces training cost with enhanced realism, outperforming DMD2 with only 2.1% its training cost. Second, we introduce a joint training scheme where the model is fine-tuned with an RL objective while the timestep distillation training continues simultaneously. We demonstrate that the stable, well-defined loss from the ongoing distillation acts as a powerful regularizer, effectively stabilizing the RL training process and preventing policy collapse. Extensive experiments on score-based and flow matching models show that our proposed Flash-DMD not only converges significantly faster but also achieves state-of-the-art generation quality in the few-step sampling regime, outperforming existing methods in visual quality, human preference, and text-image alignment metrics. Our work presents an effective paradigm for training efficient, high-fidelity, and stable generative models. Codes are coming soon.