ChatPaper.aiChatPaper

Гладкая диффузия: создание гладких латентных пространств в моделях диффузии

Smooth Diffusion: Crafting Smooth Latent Spaces in Diffusion Models

December 7, 2023
Авторы: Jiayi Guo, Xingqian Xu, Yifan Pu, Zanlin Ni, Chaofei Wang, Manushree Vasu, Shiji Song, Gao Huang, Humphrey Shi
cs.AI

Аннотация

В последнее время диффузионные модели достигли значительных успехов в генерации изображений по текстовым описаниям (T2I), создавая изображения с высокой точностью и разнообразным содержанием. Несмотря на этот прогресс, гладкость латентного пространства в диффузионных моделях остается малоизученной. Гладкое латентное пространство гарантирует, что возмущение входного латентного вектора соответствует плавному изменению выходного изображения. Это свойство оказывается полезным в таких задачах, как интерполяция, инверсия и редактирование изображений. В данной работе мы выявляем негладкость латентных пространств диффузионных моделей, наблюдая заметные визуальные колебания, вызванные незначительными изменениями латентных векторов. Для решения этой проблемы мы предлагаем Smooth Diffusion — новый класс диффузионных моделей, которые одновременно обладают высокой производительностью и гладкостью. В частности, мы вводим пошаговую регуляризацию вариаций, чтобы обеспечить постоянство соотношения между изменениями произвольного входного латентного вектора и изменениями выходного изображения на любом этапе обучения диффузии. Кроме того, мы разрабатываем метрику стандартного отклонения интерполяции (ISTD) для эффективной оценки гладкости латентного пространства диффузионной модели. Многочисленные количественные и качественные эксперименты демонстрируют, что Smooth Diffusion выделяется как более предпочтительное решение не только в генерации T2I, но и в различных последующих задачах. Smooth Diffusion реализован в виде подключаемого модуля Smooth-LoRA, совместимого с различными моделями сообщества. Код доступен по адресу https://github.com/SHI-Labs/Smooth-Diffusion.
English
Recently, diffusion models have made remarkable progress in text-to-image (T2I) generation, synthesizing images with high fidelity and diverse contents. Despite this advancement, latent space smoothness within diffusion models remains largely unexplored. Smooth latent spaces ensure that a perturbation on an input latent corresponds to a steady change in the output image. This property proves beneficial in downstream tasks, including image interpolation, inversion, and editing. In this work, we expose the non-smoothness of diffusion latent spaces by observing noticeable visual fluctuations resulting from minor latent variations. To tackle this issue, we propose Smooth Diffusion, a new category of diffusion models that can be simultaneously high-performing and smooth. Specifically, we introduce Step-wise Variation Regularization to enforce the proportion between the variations of an arbitrary input latent and that of the output image is a constant at any diffusion training step. In addition, we devise an interpolation standard deviation (ISTD) metric to effectively assess the latent space smoothness of a diffusion model. Extensive quantitative and qualitative experiments demonstrate that Smooth Diffusion stands out as a more desirable solution not only in T2I generation but also across various downstream tasks. Smooth Diffusion is implemented as a plug-and-play Smooth-LoRA to work with various community models. Code is available at https://github.com/SHI-Labs/Smooth-Diffusion.
PDF150December 15, 2024