ChatPaper.aiChatPaper

Gladde Diffusie: Het Creëren van Gladde Latente Ruimtes in Diffusiemodellen

Smooth Diffusion: Crafting Smooth Latent Spaces in Diffusion Models

December 7, 2023
Auteurs: Jiayi Guo, Xingqian Xu, Yifan Pu, Zanlin Ni, Chaofei Wang, Manushree Vasu, Shiji Song, Gao Huang, Humphrey Shi
cs.AI

Samenvatting

Onlangs hebben diffusiemodellen opmerkelijke vooruitgang geboekt in tekst-naar-beeld (T2I) generatie, waarbij ze beelden synthetiseren met hoge kwaliteit en diverse inhoud. Ondanks deze vooruitgang blijft de gladheid van de latente ruimte binnen diffusiemodellen grotendeels onontgonnen. Gladde latente ruimtes zorgen ervoor dat een verstoring van een input latent overeenkomt met een geleidelijke verandering in het uitvoerbeeld. Deze eigenschap blijkt nuttig te zijn in downstream taken, waaronder beeldinterpolatie, inversie en bewerking. In dit werk leggen we de niet-gladheid van diffusie latente ruimtes bloot door opvallende visuele fluctuaties te observeren die het gevolg zijn van kleine latente variaties. Om dit probleem aan te pakken, stellen we Smooth Diffusion voor, een nieuwe categorie van diffusiemodellen die tegelijkertijd hoog presterend en glad kunnen zijn. Specifiek introduceren we Step-wise Variation Regularization om ervoor te zorgen dat de verhouding tussen de variaties van een willekeurige input latent en die van het uitvoerbeeld constant is bij elke diffusietrainingsstap. Daarnaast ontwikkelen we een interpolatie standaarddeviatie (ISTD) metriek om de gladheid van de latente ruimte van een diffusiemodel effectief te beoordelen. Uitgebreide kwantitatieve en kwalitatieve experimenten tonen aan dat Smooth Diffusion zich onderscheidt als een meer wenselijke oplossing, niet alleen in T2I generatie maar ook in verschillende downstream taken. Smooth Diffusion is geïmplementeerd als een plug-and-play Smooth-LoRA om te werken met verschillende community modellen. Code is beschikbaar op https://github.com/SHI-Labs/Smooth-Diffusion.
English
Recently, diffusion models have made remarkable progress in text-to-image (T2I) generation, synthesizing images with high fidelity and diverse contents. Despite this advancement, latent space smoothness within diffusion models remains largely unexplored. Smooth latent spaces ensure that a perturbation on an input latent corresponds to a steady change in the output image. This property proves beneficial in downstream tasks, including image interpolation, inversion, and editing. In this work, we expose the non-smoothness of diffusion latent spaces by observing noticeable visual fluctuations resulting from minor latent variations. To tackle this issue, we propose Smooth Diffusion, a new category of diffusion models that can be simultaneously high-performing and smooth. Specifically, we introduce Step-wise Variation Regularization to enforce the proportion between the variations of an arbitrary input latent and that of the output image is a constant at any diffusion training step. In addition, we devise an interpolation standard deviation (ISTD) metric to effectively assess the latent space smoothness of a diffusion model. Extensive quantitative and qualitative experiments demonstrate that Smooth Diffusion stands out as a more desirable solution not only in T2I generation but also across various downstream tasks. Smooth Diffusion is implemented as a plug-and-play Smooth-LoRA to work with various community models. Code is available at https://github.com/SHI-Labs/Smooth-Diffusion.
PDF150February 7, 2026