Glance: Acelerando Modelos de Difusão com 1 Amostra

Resumo

Os modelos de difusão alcançaram sucesso notável na geração de imagens, mas sua implantação continua limitada pelo alto custo computacional e pela necessidade de numerosas etapas de inferência. Esforços anteriores para destilação com menos etapas tentaram pular passos redundantes treinando modelos estudantis compactos, mas frequentemente sofrem com altos custos de retreinamento e generalização degradada. Neste trabalho, adotamos uma perspectiva diferente: aceleramos de forma inteligente, não uniforme, aplicando acelerações menores aos estágios semânticos iniciais e maiores às fases redundantes posteriores. Instanciamos essa estratégia consciente das fases com dois especialistas que se dedicam às fases de eliminação de ruído lentas e rápidas. Surpreendentemente, em vez de investir um esforço massivo no retreinamento de modelos estudantis, descobrimos que simplesmente equipar o modelo base com adaptadores LoRA leves alcança tanto uma aceleração eficiente quanto uma forte generalização. Referimo-nos a esses dois adaptadores como Slow-LoRA e Fast-LoRA. Através de extensivos experimentos, nosso método alcança até 5× de aceleração sobre o modelo base, mantendo qualidade visual comparável em diversos benchmarks. Notavelmente, os especialistas LoRA são treinados com apenas 1 amostra em um único V100 dentro de uma hora, mas os modelos resultantes generalizam fortemente em prompts não vistos.

English

Diffusion models have achieved remarkable success in image generation, yet their deployment remains constrained by the heavy computational cost and the need for numerous inference steps. Previous efforts on fewer-step distillation attempt to skip redundant steps by training compact student models, yet they often suffer from heavy retraining costs and degraded generalization. In this work, we take a different perspective: we accelerate smartly, not evenly, applying smaller speedups to early semantic stages and larger ones to later redundant phases. We instantiate this phase-aware strategy with two experts that specialize in slow and fast denoising phases. Surprisingly, instead of investing massive effort in retraining student models, we find that simply equipping the base model with lightweight LoRA adapters achieves both efficient acceleration and strong generalization. We refer to these two adapters as Slow-LoRA and Fast-LoRA. Through extensive experiments, our method achieves up to 5 acceleration over the base model while maintaining comparable visual quality across diverse benchmarks. Remarkably, the LoRA experts are trained with only 1 samples on a single V100 within one hour, yet the resulting models generalize strongly on unseen prompts.

Glance: Acelerando Modelos de Difusão com 1 Amostra

Glance: Accelerating Diffusion Models with 1 Sample

Resumo

Support