ChatPaper.aiChatPaper

Distillazione su Scala dei Modelli di Diffusione

Scale-wise Distillation of Diffusion Models

March 20, 2025
Autori: Nikita Starodubcev, Denis Kuznedelev, Artem Babenko, Dmitry Baranchuk
cs.AI

Abstract

Presentiamo SwD, un framework di distillazione multi-scala per modelli di diffusione (DMs), che impiega efficacemente le idee di previsione a scala successiva per generatori basati su diffusione a pochi passi. Più nel dettaglio, SwD è ispirato dalle recenti intuizioni che collegano i processi di diffusione all'autoregressione spettrale implicita. Supponiamo che i DMs possano avviare la generazione a risoluzioni dati inferiori e aumentare gradualmente la risoluzione dei campioni ad ogni passo di denoising senza perdita di prestazioni, riducendo significativamente i costi computazionali. SwD integra naturalmente questa idea nei metodi esistenti di distillazione di diffusione basati sulla corrispondenza di distribuzione. Inoltre, arricchiamo la famiglia degli approcci di corrispondenza di distribuzione introducendo una nuova funzione di perdita a patch che impone una similarità più fine alla distribuzione target. Quando applicato ai modelli di diffusione text-to-image all'avanguardia, SwD si avvicina ai tempi di inferenza di due passi a risoluzione completa e supera significativamente le controparti con lo stesso budget computazionale, come dimostrato da metriche automatizzate e studi di preferenza umana.
English
We present SwD, a scale-wise distillation framework for diffusion models (DMs), which effectively employs next-scale prediction ideas for diffusion-based few-step generators. In more detail, SwD is inspired by the recent insights relating diffusion processes to the implicit spectral autoregression. We suppose that DMs can initiate generation at lower data resolutions and gradually upscale the samples at each denoising step without loss in performance while significantly reducing computational costs. SwD naturally integrates this idea into existing diffusion distillation methods based on distribution matching. Also, we enrich the family of distribution matching approaches by introducing a novel patch loss enforcing finer-grained similarity to the target distribution. When applied to state-of-the-art text-to-image diffusion models, SwD approaches the inference times of two full resolution steps and significantly outperforms the counterparts under the same computation budget, as evidenced by automated metrics and human preference studies.
PDF414March 21, 2025