ChatPaper.aiChatPaper

Glance: Versnelling van diffusiemodellen met 1 steekproef

Glance: Accelerating Diffusion Models with 1 Sample

December 2, 2025
Auteurs: Zhuobai Dong, Rui Zhao, Songjie Wu, Junchao Yi, Linjie Li, Zhengyuan Yang, Lijuan Wang, Alex Jinpeng Wang
cs.AI

Samenvatting

Diffusiemodellen hebben opmerkelijke successen geboekt in beeldgeneratie, maar hun inzet wordt nog steeds beperkt door de hoge rekencapaciteit en de behoefte aan talrijke inferentiestappen. Eerdere pogingen tot distillatie met minder stappen probeerden overbodige stappen over te slaan door compacte studentmodellen te trainen, maar lijden vaak onder hoge hertraingskosten en verminderde generalisatie. In dit werk nemen we een ander perspectief: we versnellen slim, niet gelijkmatig, door kleinere versnellingen toe te passen op vroege semantische fasen en grotere op latere redundante fasen. We concretiseren deze fasebewuste strategie met twee experts die gespecialiseerd zijn in langzame en snelle denoiseringsfasen. Verrassend genoeg, in plaats van enorme inspanning te steken in het hertrainen van studentmodellen, ontdekken we dat het simpelweg uitrusten van het basismodel met lichtgewicht LoRA-adapters zowel efficiënte versnelling als sterke generalisatie bereikt. We verwijzen naar deze twee adapters als Slow-LoRA en Fast-LoRA. Door uitgebreide experimenten bereikt onze methode een versnelling tot 5x ten opzichte van het basismodel, terwijl een vergelijkbare visuele kwaliteit wordt gehandhaafd across diverse benchmarks. Opmerkelijk is dat de LoRA-experts met slechts 1% van de samples worden getraind op een enkele V100 binnen één uur, maar de resulterende modellen generaliseren sterk op onbekende prompts.
English
Diffusion models have achieved remarkable success in image generation, yet their deployment remains constrained by the heavy computational cost and the need for numerous inference steps. Previous efforts on fewer-step distillation attempt to skip redundant steps by training compact student models, yet they often suffer from heavy retraining costs and degraded generalization. In this work, we take a different perspective: we accelerate smartly, not evenly, applying smaller speedups to early semantic stages and larger ones to later redundant phases. We instantiate this phase-aware strategy with two experts that specialize in slow and fast denoising phases. Surprisingly, instead of investing massive effort in retraining student models, we find that simply equipping the base model with lightweight LoRA adapters achieves both efficient acceleration and strong generalization. We refer to these two adapters as Slow-LoRA and Fast-LoRA. Through extensive experiments, our method achieves up to 5 acceleration over the base model while maintaining comparable visual quality across diverse benchmarks. Remarkably, the LoRA experts are trained with only 1 samples on a single V100 within one hour, yet the resulting models generalize strongly on unseen prompts.
PDF204December 4, 2025