Destilação Escalonada de Modelos de Difusão
Scale-wise Distillation of Diffusion Models
March 20, 2025
Autores: Nikita Starodubcev, Denis Kuznedelev, Artem Babenko, Dmitry Baranchuk
cs.AI
Resumo
Apresentamos o SwD, uma estrutura de destilação em escala para modelos de difusão (DMs), que emprega efetivamente ideias de predição da próxima escala para geradores baseados em difusão com poucos passos. Em detalhes, o SwD é inspirado por insights recentes que relacionam processos de difusão à autoregressão espectral implícita. Supomos que os DMs podem iniciar a geração em resoluções de dados mais baixas e gradualmente aumentar a escala das amostras em cada etapa de remoção de ruído sem perda de desempenho, enquanto reduzem significativamente os custos computacionais. O SwD integra naturalmente essa ideia aos métodos existentes de destilação de difusão baseados em correspondência de distribuição. Além disso, enriquecemos a família de abordagens de correspondência de distribuição ao introduzir uma nova função de perda por patch que reforça uma similaridade mais refinada com a distribuição alvo. Quando aplicado aos modelos de difusão state-of-the-art para geração de texto em imagem, o SwD aproxima-se dos tempos de inferência de dois passos em resolução total e supera significativamente as contrapartes sob o mesmo orçamento computacional, conforme evidenciado por métricas automatizadas e estudos de preferência humana.
English
We present SwD, a scale-wise distillation framework for diffusion models
(DMs), which effectively employs next-scale prediction ideas for
diffusion-based few-step generators. In more detail, SwD is inspired by the
recent insights relating diffusion processes to the implicit spectral
autoregression. We suppose that DMs can initiate generation at lower data
resolutions and gradually upscale the samples at each denoising step without
loss in performance while significantly reducing computational costs. SwD
naturally integrates this idea into existing diffusion distillation methods
based on distribution matching. Also, we enrich the family of distribution
matching approaches by introducing a novel patch loss enforcing finer-grained
similarity to the target distribution. When applied to state-of-the-art
text-to-image diffusion models, SwD approaches the inference times of two full
resolution steps and significantly outperforms the counterparts under the same
computation budget, as evidenced by automated metrics and human preference
studies.