SCEdit: 스킵 연결 편집을 통한 효율적이고 제어 가능한 이미지 확산 생성
SCEdit: Efficient and Controllable Image Diffusion Generation via Skip Connection Editing
December 18, 2023
저자: Zeyinzi Jiang, Chaojie Mao, Yulin Pan, Zhen Han, Jingfeng Zhang
cs.AI
초록
이미지 확산 모델은 텍스트-이미지 생성 및 제어 가능한 이미지 합성과 같은 다양한 작업에 활용되어 왔다. 최근 연구에서는 기존 모델에 미세한 조정을 가하는 튜닝 방법을 도입하여, 기본 생성 확산 모델의 특정 적응에서 유망한 결과를 얻었다. 본 연구에서는 확산 모델의 주요 백본을 수정하는 대신, U-Net의 스킵 연결(skip connection) 역할을 탐구하고, 인코더와 디코더 간 장거리 정보를 집계하는 계층적 특징이 이미지 생성의 내용과 품질에 상당한 영향을 미친다는 점을 밝혔다. 이러한 관찰을 바탕으로, 우리는 SC-Tuner라는 경량 튜닝 모듈을 사용하여 스킵 연결을 통합하고 편집하는 효율적인 생성 튜닝 프레임워크인 SCEdit을 제안한다. 또한, 제안된 프레임워크는 Controllable SC-Tuner를 통해 다양한 조건을 주입함으로써 제어 가능한 이미지 합성으로의 직관적인 확장을 가능하게 하여, 다중 조건 입력을 위한 네트워크 설계를 단순화하고 통일한다. 우리의 SCEdit은 경량 튜너로 인해 학습 매개변수, 메모리 사용량 및 계산 비용을 크게 줄이며, 역전파는 디코더 블록에만 전달된다. 텍스트-이미지 생성 및 제어 가능한 이미지 합성 작업에서 수행된 광범위한 실험은 우리의 방법이 효율성과 성능 측면에서 우수함을 입증한다. 프로젝트 페이지: https://scedit.github.io/
English
Image diffusion models have been utilized in various tasks, such as
text-to-image generation and controllable image synthesis. Recent research has
introduced tuning methods that make subtle adjustments to the original models,
yielding promising results in specific adaptations of foundational generative
diffusion models. Rather than modifying the main backbone of the diffusion
model, we delve into the role of skip connection in U-Net and reveal that
hierarchical features aggregating long-distance information across encoder and
decoder make a significant impact on the content and quality of image
generation. Based on the observation, we propose an efficient generative tuning
framework, dubbed SCEdit, which integrates and edits Skip Connection using a
lightweight tuning module named SC-Tuner. Furthermore, the proposed framework
allows for straightforward extension to controllable image synthesis by
injecting different conditions with Controllable SC-Tuner, simplifying and
unifying the network design for multi-condition inputs. Our SCEdit
substantially reduces training parameters, memory usage, and computational
expense due to its lightweight tuners, with backward propagation only passing
to the decoder blocks. Extensive experiments conducted on text-to-image
generation and controllable image synthesis tasks demonstrate the superiority
of our method in terms of efficiency and performance. Project page:
https://scedit.github.io/