Glance: Aceleración de Modelos de Difusión con 1 Muestra
Glance: Accelerating Diffusion Models with 1 Sample
December 2, 2025
Autores: Zhuobai Dong, Rui Zhao, Songjie Wu, Junchao Yi, Linjie Li, Zhengyuan Yang, Lijuan Wang, Alex Jinpeng Wang
cs.AI
Resumen
Los modelos de difusión han logrado un éxito notable en la generación de imágenes, aunque su implementación sigue limitada por el alto coste computacional y la necesidad de numerosos pasos de inferencia. Los esfuerzos previos en destilación con menos pasos intentan omitir pasos redundantes entrenando modelos estudiantiles compactos, pero a menudo sufren de altos costes de reentrenamiento y una generalización degradada. En este trabajo, adoptamos una perspectiva diferente: aceleramos de manera inteligente, no uniforme, aplicando aceleraciones menores a las etapas semánticas iniciales y mayores a las fases redundantes posteriores. Instanciamos esta estrategia consciente de las fases con dos especialistas que se dedican a las fases de desruido lentas y rápidas. Sorprendentemente, en lugar de invertir un esfuerzo masivo en reentrenar modelos estudiantiles, descubrimos que simplemente equipar el modelo base con adaptadores LoRA ligeros logra tanto una aceleración eficiente como una fuerte generalización. Nos referimos a estos dos adaptadores como Slow-LoRA y Fast-LoRA. Mediante experimentos exhaustivos, nuestro método logra hasta 5 veces más aceleración que el modelo base mientras mantiene una calidad visual comparable en diversos benchmarks. Notablemente, los especialistas LoRA se entrenan con solo 1 muestra en una única V100 en menos de una hora, y aun así los modelos resultantes generalizan sólidamente con prompts no vistos.
English
Diffusion models have achieved remarkable success in image generation, yet their deployment remains constrained by the heavy computational cost and the need for numerous inference steps. Previous efforts on fewer-step distillation attempt to skip redundant steps by training compact student models, yet they often suffer from heavy retraining costs and degraded generalization. In this work, we take a different perspective: we accelerate smartly, not evenly, applying smaller speedups to early semantic stages and larger ones to later redundant phases. We instantiate this phase-aware strategy with two experts that specialize in slow and fast denoising phases. Surprisingly, instead of investing massive effort in retraining student models, we find that simply equipping the base model with lightweight LoRA adapters achieves both efficient acceleration and strong generalization. We refer to these two adapters as Slow-LoRA and Fast-LoRA. Through extensive experiments, our method achieves up to 5 acceleration over the base model while maintaining comparable visual quality across diverse benchmarks. Remarkably, the LoRA experts are trained with only 1 samples on a single V100 within one hour, yet the resulting models generalize strongly on unseen prompts.