Glance: Ускорение диффузионных моделей с 1 сэмплом
Glance: Accelerating Diffusion Models with 1 Sample
December 2, 2025
Авторы: Zhuobai Dong, Rui Zhao, Songjie Wu, Junchao Yi, Linjie Li, Zhengyuan Yang, Lijuan Wang, Alex Jinpeng Wang
cs.AI
Аннотация
Диффузионные модели достигли впечатляющих успехов в генерации изображений, однако их практическое применение по-прежнему ограничено высокими вычислительными затратами и необходимостью выполнения многочисленных шагов вывода. Предыдущие попытки дистилляции с меньшим количеством шагов направлены на пропуск избыточных этапов путем обучения компактных моделей-учеников, однако они часто сталкиваются с высокими затратами на переобучение и ухудшением обобщающей способности. В данной работе мы предлагаем иной подход: мы ускоряем интеллектуально, а не равномерно, применяя меньшие коэффициенты ускорения к ранним семантическим стадиям и большие — к поздним избыточным фазам. Мы реализуем эту стратегию, учитывающую фазы, с помощью двух экспертов, специализирующихся на медленных и быстрых фазах денойзинга. Неожиданно, вместо значительных затрат на переобучение моделей-учеников, мы обнаружили, что простое оснащение базовой модели легковесными LoRA-адаптерами позволяет достичь как эффективного ускорения, так и высокой обобщающей способности. Мы называем эти два адаптера Slow-LoRA и Fast-LoRA. В ходе обширных экспериментов наш метод обеспечивает до 5-кратного ускорения по сравнению с базовой моделью при сохранении сопоставимого визуального качества на различных бенчмарках. Примечательно, что эксперты LoRA обучаются всего на 1 изображении на одной видеокарте V100 в течение одного часа, однако полученные модели демонстрируют высокую способность к обобщению на непредвиденных промптах.
English
Diffusion models have achieved remarkable success in image generation, yet their deployment remains constrained by the heavy computational cost and the need for numerous inference steps. Previous efforts on fewer-step distillation attempt to skip redundant steps by training compact student models, yet they often suffer from heavy retraining costs and degraded generalization. In this work, we take a different perspective: we accelerate smartly, not evenly, applying smaller speedups to early semantic stages and larger ones to later redundant phases. We instantiate this phase-aware strategy with two experts that specialize in slow and fast denoising phases. Surprisingly, instead of investing massive effort in retraining student models, we find that simply equipping the base model with lightweight LoRA adapters achieves both efficient acceleration and strong generalization. We refer to these two adapters as Slow-LoRA and Fast-LoRA. Through extensive experiments, our method achieves up to 5 acceleration over the base model while maintaining comparable visual quality across diverse benchmarks. Remarkably, the LoRA experts are trained with only 1 samples on a single V100 within one hour, yet the resulting models generalize strongly on unseen prompts.