스무스 디퓨전: 디퓨전 모델에서 매끄러운 잠재 공간 구축
Smooth Diffusion: Crafting Smooth Latent Spaces in Diffusion Models
December 7, 2023
저자: Jiayi Guo, Xingqian Xu, Yifan Pu, Zanlin Ni, Chaofei Wang, Manushree Vasu, Shiji Song, Gao Huang, Humphrey Shi
cs.AI
초록
최근 디퓨전 모델은 텍스트-이미지(T2I) 생성 분야에서 높은 충실도와 다양한 콘텐츠를 가진 이미지를 합성하며 눈부신 발전을 이루었습니다. 그러나 이러한 발전에도 불구하고, 디퓨전 모델 내의 잠재 공간의 매끄러움에 대한 연구는 여전히 미흡한 상태입니다. 매끄러운 잠재 공간은 입력 잠재 변수에 대한 미세한 변화가 출력 이미지에서도 일관된 변화로 이어지도록 보장합니다. 이러한 특성은 이미지 보간, 역변환, 편집 등의 다운스트림 작업에서 유용하게 활용될 수 있습니다. 본 연구에서는 미세한 잠재 변동으로 인해 발생하는 뚜렷한 시각적 변동을 관찰함으로써 디퓨전 잠재 공간의 비매끄러움을 밝혔습니다. 이 문제를 해결하기 위해, 우리는 높은 성능과 매끄러움을 동시에 달성할 수 있는 새로운 범주의 디퓨전 모델인 Smooth Diffusion을 제안합니다. 구체적으로, 우리는 Step-wise Variation Regularization을 도입하여 임의의 입력 잠재 변수와 출력 이미지의 변동 비율이 디퓨전 훈련 과정의 모든 단계에서 일정하도록 강제합니다. 또한, 디퓨전 모델의 잠재 공간 매끄러움을 효과적으로 평가하기 위해 보간 표준 편차(ISTD) 지표를 고안했습니다. 다양한 정량적 및 정성적 실험을 통해 Smooth Diffusion이 T2I 생성뿐만 아니라 다양한 다운스트림 작업에서도 더 바람직한 솔루션으로 두각을 나타냄을 입증했습니다. Smooth Diffusion은 다양한 커뮤니티 모델과 함께 작동할 수 있는 플러그 앤 플레이 방식의 Smooth-LoRA로 구현되었습니다. 코드는 https://github.com/SHI-Labs/Smooth-Diffusion에서 확인할 수 있습니다.
English
Recently, diffusion models have made remarkable progress in text-to-image
(T2I) generation, synthesizing images with high fidelity and diverse contents.
Despite this advancement, latent space smoothness within diffusion models
remains largely unexplored. Smooth latent spaces ensure that a perturbation on
an input latent corresponds to a steady change in the output image. This
property proves beneficial in downstream tasks, including image interpolation,
inversion, and editing. In this work, we expose the non-smoothness of diffusion
latent spaces by observing noticeable visual fluctuations resulting from minor
latent variations. To tackle this issue, we propose Smooth Diffusion, a new
category of diffusion models that can be simultaneously high-performing and
smooth. Specifically, we introduce Step-wise Variation Regularization to
enforce the proportion between the variations of an arbitrary input latent and
that of the output image is a constant at any diffusion training step. In
addition, we devise an interpolation standard deviation (ISTD) metric to
effectively assess the latent space smoothness of a diffusion model. Extensive
quantitative and qualitative experiments demonstrate that Smooth Diffusion
stands out as a more desirable solution not only in T2I generation but also
across various downstream tasks. Smooth Diffusion is implemented as a
plug-and-play Smooth-LoRA to work with various community models. Code is
available at https://github.com/SHI-Labs/Smooth-Diffusion.