ChatPaper.aiChatPaper

Schaalsgewijze Destillatie van Diffusiemodellen

Scale-wise Distillation of Diffusion Models

March 20, 2025
Auteurs: Nikita Starodubcev, Denis Kuznedelev, Artem Babenko, Dmitry Baranchuk
cs.AI

Samenvatting

We presenteren SwD, een scale-wise distillatiekader voor diffusiemodellen (DMs), dat effectief gebruikmaakt van next-scale voorspellingsideeën voor diffusiegebaseerde few-step generatoren. In meer detail is SwD geïnspireerd door recente inzichten die diffusieprocessen relateren aan impliciete spectrale autoregressie. We veronderstellen dat DMs generatie kunnen starten bij lagere dataresoluties en de samples geleidelijk kunnen opschalen bij elke denoisestap zonder prestatieverlies, terwijl de rekenkosten aanzienlijk worden verlaagd. SwD integreert dit idee op natuurlijke wijze in bestaande diffusiedistillatiemethoden gebaseerd op distributie-matching. Daarnaast verrijken we de familie van distributie-matchingbenaderingen door een nieuw patch-verlies te introduceren dat een fijnmazigere gelijkenis met de doeldistributie afdwingt. Wanneer toegepast op state-of-the-art tekst-naar-beeld diffusiemodellen, benadert SwD de inferentietijden van twee volledige resolutiestappen en presteert het aanzienlijk beter dan de tegenhangers binnen hetzelfde rekenbudget, zoals blijkt uit geautomatiseerde metingen en studies naar menselijke voorkeuren.
English
We present SwD, a scale-wise distillation framework for diffusion models (DMs), which effectively employs next-scale prediction ideas for diffusion-based few-step generators. In more detail, SwD is inspired by the recent insights relating diffusion processes to the implicit spectral autoregression. We suppose that DMs can initiate generation at lower data resolutions and gradually upscale the samples at each denoising step without loss in performance while significantly reducing computational costs. SwD naturally integrates this idea into existing diffusion distillation methods based on distribution matching. Also, we enrich the family of distribution matching approaches by introducing a novel patch loss enforcing finer-grained similarity to the target distribution. When applied to state-of-the-art text-to-image diffusion models, SwD approaches the inference times of two full resolution steps and significantly outperforms the counterparts under the same computation budget, as evidenced by automated metrics and human preference studies.

Summary

AI-Generated Summary

PDF404March 21, 2025