Glance: 1샘플로 가속화하는 확산 모델
Glance: Accelerating Diffusion Models with 1 Sample
December 2, 2025
저자: Zhuobai Dong, Rui Zhao, Songjie Wu, Junchao Yi, Linjie Li, Zhengyuan Yang, Lijuan Wang, Alex Jinpeng Wang
cs.AI
초록
확산 모델은 이미지 생성 분야에서 놀라운 성공을 거두었으나, 높은 계산 비용과 많은 추론 단계 필요성으로 인해 실제 적용에는 여전히 제약이 따릅니다. 더 적은 단계의 축소를 위한 기존 연구들은 컴팩트한 학생 모델을 학습시켜 중복 단계를 건너뛰려고 시도했지만, 대규모 재학습 비용과 일반화 성능 저하 문제를 자주 겪었습니다. 본 연구에서는 다른 접근법을 취합니다. 즉, 균일하지 않게 지능적으로 가속화하여 초기 의미론적 단계에는 작은 가속을, 후기 중복 단계에는 큰 가속을 적용합니다. 우리는 이 단계 인식 전략을 느린 제노이징 단계와 빠른 제노이징 단계에 각각 특화된 두 전문가 모듈로 구현합니다. 놀랍게도, 학생 모델을 대규모로 재학습시키는 대신 기본 모델에 경량 LoRA 어댑터를 추가하는 것만으로도 효율적인 가속과 강력한 일반화를 동시에 달성할 수 있음을 발견했습니다. 우리는 이 두 어댑터를 Slow-LoRA와 Fast-LoRA로 명명합니다. 광범위한 실험을 통해 우리의 방법은 기본 모델 대비 최대 5배의 가속을 달성하면서도 다양한 벤치마크에서 비슷한 시각적 품질을 유지합니다. 특히 LoRA 전문가 모듈은 단일 V100 GPU에서 1샘플만으로 1시간 이내에 학습되었음에도 불구하고, 결과 모델들은 보지 않은 프롬프트에서도 강력한 일반화 성능을 보입니다.
English
Diffusion models have achieved remarkable success in image generation, yet their deployment remains constrained by the heavy computational cost and the need for numerous inference steps. Previous efforts on fewer-step distillation attempt to skip redundant steps by training compact student models, yet they often suffer from heavy retraining costs and degraded generalization. In this work, we take a different perspective: we accelerate smartly, not evenly, applying smaller speedups to early semantic stages and larger ones to later redundant phases. We instantiate this phase-aware strategy with two experts that specialize in slow and fast denoising phases. Surprisingly, instead of investing massive effort in retraining student models, we find that simply equipping the base model with lightweight LoRA adapters achieves both efficient acceleration and strong generalization. We refer to these two adapters as Slow-LoRA and Fast-LoRA. Through extensive experiments, our method achieves up to 5 acceleration over the base model while maintaining comparable visual quality across diverse benchmarks. Remarkably, the LoRA experts are trained with only 1 samples on a single V100 within one hour, yet the resulting models generalize strongly on unseen prompts.