ChatPaper.aiChatPaper

Difusão Suave: Construindo Espaços Latentes Suaves em Modelos de Difusão

Smooth Diffusion: Crafting Smooth Latent Spaces in Diffusion Models

December 7, 2023
Autores: Jiayi Guo, Xingqian Xu, Yifan Pu, Zanlin Ni, Chaofei Wang, Manushree Vasu, Shiji Song, Gao Huang, Humphrey Shi
cs.AI

Resumo

Recentemente, os modelos de difusão têm feito progressos notáveis na geração de texto para imagem (T2I), sintetizando imagens com alta fidelidade e conteúdos diversos. Apesar desse avanço, a suavidade do espaço latente dentro dos modelos de difusão permanece amplamente inexplorada. Espaços latentes suaves garantem que uma perturbação em um latente de entrada corresponda a uma mudança gradual na imagem de saída. Essa propriedade se mostra benéfica em tarefas subsequentes, incluindo interpolação de imagens, inversão e edição. Neste trabalho, expomos a não suavidade dos espaços latentes de difusão ao observar flutuações visuais perceptíveis resultantes de pequenas variações latentes. Para abordar esse problema, propomos o Smooth Diffusion, uma nova categoria de modelos de difusão que pode ser simultaneamente de alto desempenho e suave. Especificamente, introduzimos a Regularização de Variação Passo a Passo para impor que a proporção entre as variações de um latente de entrada arbitrário e as da imagem de saída seja uma constante em qualquer etapa de treinamento de difusão. Além disso, desenvolvemos uma métrica de desvio padrão de interpolação (ISTD) para avaliar efetivamente a suavidade do espaço latente de um modelo de difusão. Experimentos quantitativos e qualitativos extensivos demonstram que o Smooth Diffusion se destaca como uma solução mais desejável não apenas na geração T2I, mas também em várias tarefas subsequentes. O Smooth Diffusion é implementado como um Smooth-LoRA plug-and-play para funcionar com vários modelos da comunidade. O código está disponível em https://github.com/SHI-Labs/Smooth-Diffusion.
English
Recently, diffusion models have made remarkable progress in text-to-image (T2I) generation, synthesizing images with high fidelity and diverse contents. Despite this advancement, latent space smoothness within diffusion models remains largely unexplored. Smooth latent spaces ensure that a perturbation on an input latent corresponds to a steady change in the output image. This property proves beneficial in downstream tasks, including image interpolation, inversion, and editing. In this work, we expose the non-smoothness of diffusion latent spaces by observing noticeable visual fluctuations resulting from minor latent variations. To tackle this issue, we propose Smooth Diffusion, a new category of diffusion models that can be simultaneously high-performing and smooth. Specifically, we introduce Step-wise Variation Regularization to enforce the proportion between the variations of an arbitrary input latent and that of the output image is a constant at any diffusion training step. In addition, we devise an interpolation standard deviation (ISTD) metric to effectively assess the latent space smoothness of a diffusion model. Extensive quantitative and qualitative experiments demonstrate that Smooth Diffusion stands out as a more desirable solution not only in T2I generation but also across various downstream tasks. Smooth Diffusion is implemented as a plug-and-play Smooth-LoRA to work with various community models. Code is available at https://github.com/SHI-Labs/Smooth-Diffusion.
PDF150February 7, 2026