ChatPaper.aiChatPaper

Destilación Escalonada de Modelos de Difusión

Scale-wise Distillation of Diffusion Models

March 20, 2025
Autores: Nikita Starodubcev, Denis Kuznedelev, Artem Babenko, Dmitry Baranchuk
cs.AI

Resumen

Presentamos SwD, un marco de destilación multiescala para modelos de difusión (DMs), que emplea eficazmente ideas de predicción a la siguiente escala para generadores basados en difusión de pocos pasos. En detalle, SwD se inspira en los recientes hallazgos que relacionan los procesos de difusión con la autorregresión espectral implícita. Suponemos que los DMs pueden iniciar la generación en resoluciones de datos más bajas y escalar gradualmente las muestras en cada paso de eliminación de ruido sin pérdida de rendimiento, mientras reducen significativamente los costos computacionales. SwD integra naturalmente esta idea en los métodos existentes de destilación de difusión basados en la coincidencia de distribuciones. Además, enriquecemos la familia de enfoques de coincidencia de distribuciones al introducir una nueva pérdida por parches que refuerza una similitud más granular con la distribución objetivo. Cuando se aplica a modelos de difusión de última generación para generación de texto a imagen, SwD se acerca a los tiempos de inferencia de dos pasos a resolución completa y supera significativamente a las alternativas bajo el mismo presupuesto computacional, como lo demuestran las métricas automatizadas y los estudios de preferencia humana.
English
We present SwD, a scale-wise distillation framework for diffusion models (DMs), which effectively employs next-scale prediction ideas for diffusion-based few-step generators. In more detail, SwD is inspired by the recent insights relating diffusion processes to the implicit spectral autoregression. We suppose that DMs can initiate generation at lower data resolutions and gradually upscale the samples at each denoising step without loss in performance while significantly reducing computational costs. SwD naturally integrates this idea into existing diffusion distillation methods based on distribution matching. Also, we enrich the family of distribution matching approaches by introducing a novel patch loss enforcing finer-grained similarity to the target distribution. When applied to state-of-the-art text-to-image diffusion models, SwD approaches the inference times of two full resolution steps and significantly outperforms the counterparts under the same computation budget, as evidenced by automated metrics and human preference studies.

Summary

AI-Generated Summary

PDF404March 21, 2025