Destilação Escalonada de Modelos de Difusão

Resumo

Apresentamos o SwD, uma estrutura de destilação em escala para modelos de difusão (DMs), que emprega efetivamente ideias de predição da próxima escala para geradores baseados em difusão com poucos passos. Em detalhes, o SwD é inspirado por insights recentes que relacionam processos de difusão à autoregressão espectral implícita. Supomos que os DMs podem iniciar a geração em resoluções de dados mais baixas e gradualmente aumentar a escala das amostras em cada etapa de remoção de ruído sem perda de desempenho, enquanto reduzem significativamente os custos computacionais. O SwD integra naturalmente essa ideia aos métodos existentes de destilação de difusão baseados em correspondência de distribuição. Além disso, enriquecemos a família de abordagens de correspondência de distribuição ao introduzir uma nova função de perda por patch que reforça uma similaridade mais refinada com a distribuição alvo. Quando aplicado aos modelos de difusão state-of-the-art para geração de texto em imagem, o SwD aproxima-se dos tempos de inferência de dois passos em resolução total e supera significativamente as contrapartes sob o mesmo orçamento computacional, conforme evidenciado por métricas automatizadas e estudos de preferência humana.

English

We present SwD, a scale-wise distillation framework for diffusion models (DMs), which effectively employs next-scale prediction ideas for diffusion-based few-step generators. In more detail, SwD is inspired by the recent insights relating diffusion processes to the implicit spectral autoregression. We suppose that DMs can initiate generation at lower data resolutions and gradually upscale the samples at each denoising step without loss in performance while significantly reducing computational costs. SwD naturally integrates this idea into existing diffusion distillation methods based on distribution matching. Also, we enrich the family of distribution matching approaches by introducing a novel patch loss enforcing finer-grained similarity to the target distribution. When applied to state-of-the-art text-to-image diffusion models, SwD approaches the inference times of two full resolution steps and significantly outperforms the counterparts under the same computation budget, as evidenced by automated metrics and human preference studies.

Destilação Escalonada de Modelos de Difusão

Scale-wise Distillation of Diffusion Models

Resumo

Support