Difusión Suave: Creando Espacios Latentes Suaves en Modelos de Difusión
Smooth Diffusion: Crafting Smooth Latent Spaces in Diffusion Models
December 7, 2023
Autores: Jiayi Guo, Xingqian Xu, Yifan Pu, Zanlin Ni, Chaofei Wang, Manushree Vasu, Shiji Song, Gao Huang, Humphrey Shi
cs.AI
Resumen
Recientemente, los modelos de difusión han logrado avances notables en la generación de texto a imagen (T2I), sintetizando imágenes con alta fidelidad y contenidos diversos. A pesar de este progreso, la suavidad del espacio latente en los modelos de difusión sigue siendo en gran medida inexplorada. Los espacios latentes suaves garantizan que una perturbación en un latente de entrada corresponda a un cambio gradual en la imagen de salida. Esta propiedad resulta beneficiosa en tareas posteriores, como la interpolación, inversión y edición de imágenes. En este trabajo, exponemos la falta de suavidad en los espacios latentes de difusión al observar fluctuaciones visuales notables resultantes de variaciones latentes menores. Para abordar este problema, proponemos Smooth Diffusion, una nueva categoría de modelos de difusión que pueden ser simultáneamente de alto rendimiento y suaves. Específicamente, introducimos la Regularización de Variación Paso a Paso para garantizar que la proporción entre las variaciones de un latente de entrada arbitrario y las de la imagen de salida sea constante en cualquier paso del entrenamiento de difusión. Además, diseñamos una métrica de desviación estándar de interpolación (ISTD) para evaluar efectivamente la suavidad del espacio latente de un modelo de difusión. Experimentos cuantitativos y cualitativos exhaustivos demuestran que Smooth Diffusion se destaca como una solución más deseable no solo en la generación T2I, sino también en diversas tareas posteriores. Smooth Diffusion se implementa como un Smooth-LoRA plug-and-play para funcionar con varios modelos comunitarios. El código está disponible en https://github.com/SHI-Labs/Smooth-Diffusion.
English
Recently, diffusion models have made remarkable progress in text-to-image
(T2I) generation, synthesizing images with high fidelity and diverse contents.
Despite this advancement, latent space smoothness within diffusion models
remains largely unexplored. Smooth latent spaces ensure that a perturbation on
an input latent corresponds to a steady change in the output image. This
property proves beneficial in downstream tasks, including image interpolation,
inversion, and editing. In this work, we expose the non-smoothness of diffusion
latent spaces by observing noticeable visual fluctuations resulting from minor
latent variations. To tackle this issue, we propose Smooth Diffusion, a new
category of diffusion models that can be simultaneously high-performing and
smooth. Specifically, we introduce Step-wise Variation Regularization to
enforce the proportion between the variations of an arbitrary input latent and
that of the output image is a constant at any diffusion training step. In
addition, we devise an interpolation standard deviation (ISTD) metric to
effectively assess the latent space smoothness of a diffusion model. Extensive
quantitative and qualitative experiments demonstrate that Smooth Diffusion
stands out as a more desirable solution not only in T2I generation but also
across various downstream tasks. Smooth Diffusion is implemented as a
plug-and-play Smooth-LoRA to work with various community models. Code is
available at https://github.com/SHI-Labs/Smooth-Diffusion.