SCEdit: スキップ接続編集による効率的かつ制御可能な画像拡散生成
SCEdit: Efficient and Controllable Image Diffusion Generation via Skip Connection Editing
December 18, 2023
著者: Zeyinzi Jiang, Chaojie Mao, Yulin Pan, Zhen Han, Jingfeng Zhang
cs.AI
要旨
画像拡散モデルは、テキストから画像への生成や制御可能な画像合成など、さまざまなタスクに利用されてきた。最近の研究では、元のモデルに微調整を加えるチューニング手法が導入され、基礎的な生成拡散モデルの特定の適応において有望な結果が得られている。拡散モデルの主要なバックボーンを変更するのではなく、本研究ではU-Netにおけるスキップ接続の役割に着目し、エンコーダとデコーダ間で長距離情報を集約する階層的特徴が、画像生成の内容と品質に大きな影響を与えることを明らかにした。この観察に基づき、SC-Tunerと呼ばれる軽量なチューニングモジュールを用いてスキップ接続を統合・編集する効率的な生成チューニングフレームワーク、SCEditを提案する。さらに、提案フレームワークは、Controllable SC-Tunerを用いて異なる条件を注入することで、制御可能な画像合成への直接的な拡張を可能とし、多条件入力に対するネットワーク設計を簡素化・統一化する。SCEditは、軽量なチューナーにより、訓練パラメータ、メモリ使用量、計算コストを大幅に削減し、逆伝播はデコーダブロックのみを通過する。テキストから画像への生成および制御可能な画像合成タスクにおいて実施した広範な実験により、本手法の効率性と性能の優位性が実証された。プロジェクトページ: https://scedit.github.io/
English
Image diffusion models have been utilized in various tasks, such as
text-to-image generation and controllable image synthesis. Recent research has
introduced tuning methods that make subtle adjustments to the original models,
yielding promising results in specific adaptations of foundational generative
diffusion models. Rather than modifying the main backbone of the diffusion
model, we delve into the role of skip connection in U-Net and reveal that
hierarchical features aggregating long-distance information across encoder and
decoder make a significant impact on the content and quality of image
generation. Based on the observation, we propose an efficient generative tuning
framework, dubbed SCEdit, which integrates and edits Skip Connection using a
lightweight tuning module named SC-Tuner. Furthermore, the proposed framework
allows for straightforward extension to controllable image synthesis by
injecting different conditions with Controllable SC-Tuner, simplifying and
unifying the network design for multi-condition inputs. Our SCEdit
substantially reduces training parameters, memory usage, and computational
expense due to its lightweight tuners, with backward propagation only passing
to the decoder blocks. Extensive experiments conducted on text-to-image
generation and controllable image synthesis tasks demonstrate the superiority
of our method in terms of efficiency and performance. Project page:
https://scedit.github.io/