ChatPaper.aiChatPaper

Glance: Accelerare i Modelli di Diffusione con 1 Campione

Glance: Accelerating Diffusion Models with 1 Sample

December 2, 2025
Autori: Zhuobai Dong, Rui Zhao, Songjie Wu, Junchao Yi, Linjie Li, Zhengyuan Yang, Lijuan Wang, Alex Jinpeng Wang
cs.AI

Abstract

I modelli di diffusione hanno ottenuto un notevole successo nella generazione di immagini, ma il loro dispiegamento rimane limitato dall'elevato costo computazionale e dalla necessità di numerosi passi inferenziali. I precedenti tentativi di distillazione con meno passi cercano di saltare i passi ridondanti addestrando modelli studente compatti, ma spesso soffrono di elevati costi di riaddestramento e di una generalizzazione degradata. In questo lavoro, adottiamo una prospettiva diversa: acceleriamo in modo intelligente, non uniforme, applicando accelerazioni minori alle fasi semantiche iniziali e maggiori alle fasi ridondanti successive. Istanziamo questa strategia consapevole delle fasi con due esperti specializzati rispettivamente nelle fasi di denoising lente e veloci. Sorprendentemente, invece di investire uno sforzo massiccio nel riaddestrare modelli studente, scopriamo che semplicemente dotando il modello base di adattatori LoRA leggeri si ottengono sia un'efficiente accelerazione che una forte generalizzazione. Ci riferiamo a questi due adattatori come Slow-LoRA e Fast-LoRA. Attraverso esperimenti estesi, il nostro metodo raggiunge un'accelerazione fino a 5 volte rispetto al modello base mantenendo una qualità visiva comparabile su benchmark diversificati. Notevolmente, gli esperti LoRA sono addestrati con soli 1 campione su una singola V100 in un'ora, eppure i modelli risultanti generalizzano fortemente su prompt non visti.
English
Diffusion models have achieved remarkable success in image generation, yet their deployment remains constrained by the heavy computational cost and the need for numerous inference steps. Previous efforts on fewer-step distillation attempt to skip redundant steps by training compact student models, yet they often suffer from heavy retraining costs and degraded generalization. In this work, we take a different perspective: we accelerate smartly, not evenly, applying smaller speedups to early semantic stages and larger ones to later redundant phases. We instantiate this phase-aware strategy with two experts that specialize in slow and fast denoising phases. Surprisingly, instead of investing massive effort in retraining student models, we find that simply equipping the base model with lightweight LoRA adapters achieves both efficient acceleration and strong generalization. We refer to these two adapters as Slow-LoRA and Fast-LoRA. Through extensive experiments, our method achieves up to 5 acceleration over the base model while maintaining comparable visual quality across diverse benchmarks. Remarkably, the LoRA experts are trained with only 1 samples on a single V100 within one hour, yet the resulting models generalize strongly on unseen prompts.
PDF204December 4, 2025