ChatPaper.aiChatPaper

Glance: 1サンプルで高速化する拡散モデル

Glance: Accelerating Diffusion Models with 1 Sample

December 2, 2025
著者: Zhuobai Dong, Rui Zhao, Songjie Wu, Junchao Yi, Linjie Li, Zhengyuan Yang, Lijuan Wang, Alex Jinpeng Wang
cs.AI

要旨

拡散モデルは画像生成において顕著な成功を収めているものの、その実用化は高い計算コストと多数の推論ステップが必要な点によって制限されている。従来の少ステップ蒸留に関する研究では、コンパクトな学生モデルを学習することで冗長なステップをスキップしようとする試みがなされてきたが、多大な再学習コストと一般化性能の低下に悩まされることが多い。本研究では、異なる視点からアプローチする:均一ではなく、賢く高速化することを目指し、初期の意味的段階には小さな加速を、後期の冗長な段階には大きな加速を適用する。我々は、この段階を考慮した戦略を、低速および高速のノイズ除去段階に特化した2つのエキスパートで具体化する。驚くべきことに、学生モデルの再学習に多大な労力を費やす代わりに、ベースモデルに軽量なLoRAアダプターを装備するだけで、効率的な加速と強力な一般化の両方が達成できることを発見した。これら2つのアダプターをSlow-LoRAおよびFast-LoRAと呼ぶ。大規模な実験を通じて、本手法はベースモデルに対して最大5倍の高速化を実現し、多様なベンチマークで同等の視覚的品質を維持する。特筆すべきは、LoRAエキスパートは1サンプルのデータで単一のV100上1時間以内に学習されるにもかかわらず、得られたモデルは未見のプロンプトに対しても強力に一般化することである。
English
Diffusion models have achieved remarkable success in image generation, yet their deployment remains constrained by the heavy computational cost and the need for numerous inference steps. Previous efforts on fewer-step distillation attempt to skip redundant steps by training compact student models, yet they often suffer from heavy retraining costs and degraded generalization. In this work, we take a different perspective: we accelerate smartly, not evenly, applying smaller speedups to early semantic stages and larger ones to later redundant phases. We instantiate this phase-aware strategy with two experts that specialize in slow and fast denoising phases. Surprisingly, instead of investing massive effort in retraining student models, we find that simply equipping the base model with lightweight LoRA adapters achieves both efficient acceleration and strong generalization. We refer to these two adapters as Slow-LoRA and Fast-LoRA. Through extensive experiments, our method achieves up to 5 acceleration over the base model while maintaining comparable visual quality across diverse benchmarks. Remarkably, the LoRA experts are trained with only 1 samples on a single V100 within one hour, yet the resulting models generalize strongly on unseen prompts.
PDF204December 4, 2025