Glance : Accélération des modèles de diffusion avec un seul échantillon
Glance: Accelerating Diffusion Models with 1 Sample
December 2, 2025
papers.authors: Zhuobai Dong, Rui Zhao, Songjie Wu, Junchao Yi, Linjie Li, Zhengyuan Yang, Lijuan Wang, Alex Jinpeng Wang
cs.AI
papers.abstract
Les modèles de diffusion ont obtenu un succès remarquable en génération d'images, mais leur déploiement reste limité par leur coût computationnel élevé et le besoin de nombreuses étapes d'inférence. Les travaux antérieurs sur la distillation en moins d'étapes tentent de sauter les étapes redondantes en entraînant des modèles étudiants compacts, mais ils souffrent souvent de coûts de réentraînement importants et d'une généralisation dégradée. Dans ce travail, nous adoptons une perspective différente : nous accélérons de manière intelligente, non uniforme, en appliquant des accélérations plus faibles aux premières étapes sémantiques et plus importantes aux phases redondantes ultérieures. Nous concrétisons cette stratégie sensible aux phases avec deux experts spécialisés dans les phases de débruitage lentes et rapides. De manière surprenante, au lieu d'investir un effort massif dans le réentraînement de modèles étudiants, nous constatons que le simple équipement du modèle de base avec des adaptateurs LoRA légers permet à la fois une accélération efficace et une forte généralisation. Nous nommons ces deux adaptateurs Slow-LoRA et Fast-LoRA. Grâce à des expériences approfondies, notre méthode atteint une accélération jusqu'à 5 fois supérieure au modèle de base tout en maintenant une qualité visuelle comparable sur divers benchmarks. Remarquablement, les experts LoRA sont entraînés avec seulement 1 échantillon sur un seul V100 en moins d'une heure, pourtant les modèles résultants généralisent fortement sur des prompts non vus.
English
Diffusion models have achieved remarkable success in image generation, yet their deployment remains constrained by the heavy computational cost and the need for numerous inference steps. Previous efforts on fewer-step distillation attempt to skip redundant steps by training compact student models, yet they often suffer from heavy retraining costs and degraded generalization. In this work, we take a different perspective: we accelerate smartly, not evenly, applying smaller speedups to early semantic stages and larger ones to later redundant phases. We instantiate this phase-aware strategy with two experts that specialize in slow and fast denoising phases. Surprisingly, instead of investing massive effort in retraining student models, we find that simply equipping the base model with lightweight LoRA adapters achieves both efficient acceleration and strong generalization. We refer to these two adapters as Slow-LoRA and Fast-LoRA. Through extensive experiments, our method achieves up to 5 acceleration over the base model while maintaining comparable visual quality across diverse benchmarks. Remarkably, the LoRA experts are trained with only 1 samples on a single V100 within one hour, yet the resulting models generalize strongly on unseen prompts.