Smooth Diffusion: Creazione di Spazi Latenti Lisci nei Modelli di Diffusione
Smooth Diffusion: Crafting Smooth Latent Spaces in Diffusion Models
December 7, 2023
Autori: Jiayi Guo, Xingqian Xu, Yifan Pu, Zanlin Ni, Chaofei Wang, Manushree Vasu, Shiji Song, Gao Huang, Humphrey Shi
cs.AI
Abstract
Recentemente, i modelli di diffusione hanno compiuto progressi significativi nella generazione di immagini da testo (T2I), sintetizzando immagini con alta fedeltà e contenuti diversificati. Nonostante questi avanzamenti, la levigatezza dello spazio latente all'interno dei modelli di diffusione rimane in gran parte inesplorata. Spazi latenti lisci garantiscono che una perturbazione su un input latente corrisponda a un cambiamento graduale nell'immagine di output. Questa proprietà si rivela vantaggiosa in compiti successivi, come l'interpolazione di immagini, l'inversione e la modifica. In questo lavoro, evidenziamo la non levigatezza degli spazi latenti di diffusione osservando fluttuazioni visive evidenti risultanti da piccole variazioni latenti. Per affrontare questo problema, proponiamo Smooth Diffusion, una nuova categoria di modelli di diffusione che possono essere contemporaneamente ad alte prestazioni e lisci. Nello specifico, introduciamo la Regolarizzazione della Variazione Step-wise per imporre che la proporzione tra le variazioni di un input latente arbitrario e quelle dell'immagine di output sia costante in qualsiasi fase di addestramento della diffusione. Inoltre, ideiamo una metrica di deviazione standard dell'interpolazione (ISTD) per valutare efficacemente la levigatezza dello spazio latente di un modello di diffusione. Esperimenti quantitativi e qualitativi estesi dimostrano che Smooth Diffusion si distingue come una soluzione più desiderabile non solo nella generazione T2I ma anche in vari compiti successivi. Smooth Diffusion è implementato come un Smooth-LoRA plug-and-play per funzionare con vari modelli della comunità. Il codice è disponibile all'indirizzo https://github.com/SHI-Labs/Smooth-Diffusion.
English
Recently, diffusion models have made remarkable progress in text-to-image
(T2I) generation, synthesizing images with high fidelity and diverse contents.
Despite this advancement, latent space smoothness within diffusion models
remains largely unexplored. Smooth latent spaces ensure that a perturbation on
an input latent corresponds to a steady change in the output image. This
property proves beneficial in downstream tasks, including image interpolation,
inversion, and editing. In this work, we expose the non-smoothness of diffusion
latent spaces by observing noticeable visual fluctuations resulting from minor
latent variations. To tackle this issue, we propose Smooth Diffusion, a new
category of diffusion models that can be simultaneously high-performing and
smooth. Specifically, we introduce Step-wise Variation Regularization to
enforce the proportion between the variations of an arbitrary input latent and
that of the output image is a constant at any diffusion training step. In
addition, we devise an interpolation standard deviation (ISTD) metric to
effectively assess the latent space smoothness of a diffusion model. Extensive
quantitative and qualitative experiments demonstrate that Smooth Diffusion
stands out as a more desirable solution not only in T2I generation but also
across various downstream tasks. Smooth Diffusion is implemented as a
plug-and-play Smooth-LoRA to work with various community models. Code is
available at https://github.com/SHI-Labs/Smooth-Diffusion.