ChatPaper.aiChatPaper

SCEdit: Эффективная и управляемая генерация изображений с использованием диффузионных моделей через редактирование пропущенных соединений

SCEdit: Efficient and Controllable Image Diffusion Generation via Skip Connection Editing

December 18, 2023
Авторы: Zeyinzi Jiang, Chaojie Mao, Yulin Pan, Zhen Han, Jingfeng Zhang
cs.AI

Аннотация

Модели диффузии изображений нашли применение в различных задачах, таких как генерация изображений по текстовым описаниям и управляемый синтез изображений. Недавние исследования представили методы тонкой настройки, которые вносят незначительные изменения в исходные модели, демонстрируя перспективные результаты в адаптации базовых генеративных моделей диффузии. Вместо модификации основной архитектуры модели диффузии мы исследуем роль пропускных соединений (skip connection) в U-Net и показываем, что иерархические признаки, объединяющие информацию на больших расстояниях между кодировщиком и декодировщиком, оказывают значительное влияние на содержание и качество генерации изображений. На основе этого наблюдения мы предлагаем эффективную генеративную структуру настройки, названную SCEdit, которая интегрирует и редактирует пропускные соединения с использованием легковесного модуля настройки SC-Tuner. Кроме того, предложенная структура позволяет легко расширяться до управляемого синтеза изображений путем внедрения различных условий с помощью Controllable SC-Tuner, упрощая и унифицируя проектирование сети для многокондиционных входов. Наш SCEdit значительно сокращает количество обучаемых параметров, использование памяти и вычислительные затраты благодаря легковесным модулям настройки, при этом обратное распространение осуществляется только через блоки декодировщика. Многочисленные эксперименты, проведенные на задачах генерации изображений по текстовым описаниям и управляемого синтеза изображений, демонстрируют превосходство нашего метода с точки зрения эффективности и производительности. Страница проекта: https://scedit.github.io/
English
Image diffusion models have been utilized in various tasks, such as text-to-image generation and controllable image synthesis. Recent research has introduced tuning methods that make subtle adjustments to the original models, yielding promising results in specific adaptations of foundational generative diffusion models. Rather than modifying the main backbone of the diffusion model, we delve into the role of skip connection in U-Net and reveal that hierarchical features aggregating long-distance information across encoder and decoder make a significant impact on the content and quality of image generation. Based on the observation, we propose an efficient generative tuning framework, dubbed SCEdit, which integrates and edits Skip Connection using a lightweight tuning module named SC-Tuner. Furthermore, the proposed framework allows for straightforward extension to controllable image synthesis by injecting different conditions with Controllable SC-Tuner, simplifying and unifying the network design for multi-condition inputs. Our SCEdit substantially reduces training parameters, memory usage, and computational expense due to its lightweight tuners, with backward propagation only passing to the decoder blocks. Extensive experiments conducted on text-to-image generation and controllable image synthesis tasks demonstrate the superiority of our method in terms of efficiency and performance. Project page: https://scedit.github.io/
PDF203December 15, 2024