Gladde Diffusie: Het Creëren van Gladde Latente Ruimtes in Diffusiemodellen
Smooth Diffusion: Crafting Smooth Latent Spaces in Diffusion Models
December 7, 2023
Auteurs: Jiayi Guo, Xingqian Xu, Yifan Pu, Zanlin Ni, Chaofei Wang, Manushree Vasu, Shiji Song, Gao Huang, Humphrey Shi
cs.AI
Samenvatting
Onlangs hebben diffusiemodellen opmerkelijke vooruitgang geboekt in tekst-naar-beeld (T2I) generatie, waarbij ze beelden synthetiseren met hoge kwaliteit en diverse inhoud. Ondanks deze vooruitgang blijft de gladheid van de latente ruimte binnen diffusiemodellen grotendeels onontgonnen. Gladde latente ruimtes zorgen ervoor dat een verstoring van een input latent overeenkomt met een geleidelijke verandering in het uitvoerbeeld. Deze eigenschap blijkt nuttig te zijn in downstream taken, waaronder beeldinterpolatie, inversie en bewerking. In dit werk leggen we de niet-gladheid van diffusie latente ruimtes bloot door opvallende visuele fluctuaties te observeren die het gevolg zijn van kleine latente variaties. Om dit probleem aan te pakken, stellen we Smooth Diffusion voor, een nieuwe categorie van diffusiemodellen die tegelijkertijd hoog presterend en glad kunnen zijn. Specifiek introduceren we Step-wise Variation Regularization om ervoor te zorgen dat de verhouding tussen de variaties van een willekeurige input latent en die van het uitvoerbeeld constant is bij elke diffusietrainingsstap. Daarnaast ontwikkelen we een interpolatie standaarddeviatie (ISTD) metriek om de gladheid van de latente ruimte van een diffusiemodel effectief te beoordelen. Uitgebreide kwantitatieve en kwalitatieve experimenten tonen aan dat Smooth Diffusion zich onderscheidt als een meer wenselijke oplossing, niet alleen in T2I generatie maar ook in verschillende downstream taken. Smooth Diffusion is geïmplementeerd als een plug-and-play Smooth-LoRA om te werken met verschillende community modellen. Code is beschikbaar op https://github.com/SHI-Labs/Smooth-Diffusion.
English
Recently, diffusion models have made remarkable progress in text-to-image
(T2I) generation, synthesizing images with high fidelity and diverse contents.
Despite this advancement, latent space smoothness within diffusion models
remains largely unexplored. Smooth latent spaces ensure that a perturbation on
an input latent corresponds to a steady change in the output image. This
property proves beneficial in downstream tasks, including image interpolation,
inversion, and editing. In this work, we expose the non-smoothness of diffusion
latent spaces by observing noticeable visual fluctuations resulting from minor
latent variations. To tackle this issue, we propose Smooth Diffusion, a new
category of diffusion models that can be simultaneously high-performing and
smooth. Specifically, we introduce Step-wise Variation Regularization to
enforce the proportion between the variations of an arbitrary input latent and
that of the output image is a constant at any diffusion training step. In
addition, we devise an interpolation standard deviation (ISTD) metric to
effectively assess the latent space smoothness of a diffusion model. Extensive
quantitative and qualitative experiments demonstrate that Smooth Diffusion
stands out as a more desirable solution not only in T2I generation but also
across various downstream tasks. Smooth Diffusion is implemented as a
plug-and-play Smooth-LoRA to work with various community models. Code is
available at https://github.com/SHI-Labs/Smooth-Diffusion.