Smooth Diffusion : Création d'espaces latents fluides dans les modèles de diffusion
Smooth Diffusion: Crafting Smooth Latent Spaces in Diffusion Models
December 7, 2023
Auteurs: Jiayi Guo, Xingqian Xu, Yifan Pu, Zanlin Ni, Chaofei Wang, Manushree Vasu, Shiji Song, Gao Huang, Humphrey Shi
cs.AI
Résumé
Récemment, les modèles de diffusion ont réalisé des progrès remarquables dans la génération d'images à partir de texte (T2I), synthétisant des images avec une haute fidélité et des contenus diversifiés. Malgré cette avancée, la régularité des espaces latents au sein des modèles de diffusion reste largement inexplorée. Des espaces latents réguliers garantissent qu'une perturbation sur un latent d'entrée correspond à un changement progressif dans l'image de sortie. Cette propriété s'avère bénéfique pour les tâches en aval, incluant l'interpolation, l'inversion et l'édition d'images. Dans ce travail, nous mettons en évidence la non-régularité des espaces latents de diffusion en observant des fluctuations visuelles notables résultant de variations latentes mineures. Pour résoudre ce problème, nous proposons Smooth Diffusion, une nouvelle catégorie de modèles de diffusion qui peuvent être à la fois performants et réguliers. Plus précisément, nous introduisons une régularisation des variations étape par étape pour imposer que le rapport entre les variations d'un latent d'entrée arbitraire et celles de l'image de sortie soit constant à chaque étape de la diffusion. En outre, nous concevons une métrique d'écart-type d'interpolation (ISTD) pour évaluer efficacement la régularité de l'espace latent d'un modèle de diffusion. Des expériences quantitatives et qualitatives approfondies démontrent que Smooth Diffusion se distingue comme une solution plus désirable non seulement dans la génération T2I mais aussi dans diverses tâches en aval. Smooth Diffusion est implémenté sous forme de Smooth-LoRA plug-and-play pour fonctionner avec divers modèles communautaires. Le code est disponible à l'adresse https://github.com/SHI-Labs/Smooth-Diffusion.
English
Recently, diffusion models have made remarkable progress in text-to-image
(T2I) generation, synthesizing images with high fidelity and diverse contents.
Despite this advancement, latent space smoothness within diffusion models
remains largely unexplored. Smooth latent spaces ensure that a perturbation on
an input latent corresponds to a steady change in the output image. This
property proves beneficial in downstream tasks, including image interpolation,
inversion, and editing. In this work, we expose the non-smoothness of diffusion
latent spaces by observing noticeable visual fluctuations resulting from minor
latent variations. To tackle this issue, we propose Smooth Diffusion, a new
category of diffusion models that can be simultaneously high-performing and
smooth. Specifically, we introduce Step-wise Variation Regularization to
enforce the proportion between the variations of an arbitrary input latent and
that of the output image is a constant at any diffusion training step. In
addition, we devise an interpolation standard deviation (ISTD) metric to
effectively assess the latent space smoothness of a diffusion model. Extensive
quantitative and qualitative experiments demonstrate that Smooth Diffusion
stands out as a more desirable solution not only in T2I generation but also
across various downstream tasks. Smooth Diffusion is implemented as a
plug-and-play Smooth-LoRA to work with various community models. Code is
available at https://github.com/SHI-Labs/Smooth-Diffusion.