텍스트-이미지 확산 모델을 직교 미세조정으로 제어하기
Controlling Text-to-Image Diffusion by Orthogonal Finetuning
June 12, 2023
저자: Zeju Qiu, Weiyang Liu, Haiwen Feng, Yuxuan Xue, Yao Feng, Zhen Liu, Dan Zhang, Adrian Weller, Bernhard Schölkopf
cs.AI
초록
대규모 텍스트-이미지 확산 모델은 텍스트 프롬프트에서 사실적인 이미지를 생성하는 데 있어 인상적인 능력을 보여줍니다. 이러한 강력한 모델을 효과적으로 안내하거나 제어하여 다양한 하위 작업을 수행하도록 만드는 방법은 중요한 미해결 문제로 대두되고 있습니다. 이 문제를 해결하기 위해, 우리는 텍스트-이미지 확산 모델을 하위 작업에 적응시키기 위한 원칙적인 미세 조정 방법인 직교 미세 조정(Orthogonal Finetuning, OFT)을 소개합니다. 기존 방법과 달리, OFT는 단위 초구(unit hypersphere) 상에서 뉴런 간의 쌍별 관계를 특징짓는 초구 에너지(hyperspherical energy)를 이론적으로 보존할 수 있습니다. 우리는 이 특성이 텍스트-이미지 확산 모델의 의미 생성 능력을 보존하는 데 중요하다는 것을 발견했습니다. 미세 조정의 안정성을 더욱 향상시키기 위해, 우리는 초구에 추가적인 반경 제약을 부과하는 제약 직교 미세 조정(Constrained Orthogonal Finetuning, COFT)을 제안합니다. 구체적으로, 우리는 두 가지 중요한 텍스트-이미지 미세 조정 작업을 고려합니다: 주체 기반 생성(subject-driven generation)은 주체의 몇 장의 이미지와 텍스트 프롬프트가 주어졌을 때 주체 특정 이미지를 생성하는 것이 목표이며, 제어 가능 생성(controllable generation)은 모델이 추가적인 제어 신호를 받아들일 수 있도록 만드는 것이 목표입니다. 우리는 실험적으로 OFT 프레임워크가 생성 품질과 수렴 속도에서 기존 방법들을 능가한다는 것을 보여줍니다.
English
Large text-to-image diffusion models have impressive capabilities in
generating photorealistic images from text prompts. How to effectively guide or
control these powerful models to perform different downstream tasks becomes an
important open problem. To tackle this challenge, we introduce a principled
finetuning method -- Orthogonal Finetuning (OFT), for adapting text-to-image
diffusion models to downstream tasks. Unlike existing methods, OFT can provably
preserve hyperspherical energy which characterizes the pairwise neuron
relationship on the unit hypersphere. We find that this property is crucial for
preserving the semantic generation ability of text-to-image diffusion models.
To improve finetuning stability, we further propose Constrained Orthogonal
Finetuning (COFT) which imposes an additional radius constraint to the
hypersphere. Specifically, we consider two important finetuning text-to-image
tasks: subject-driven generation where the goal is to generate subject-specific
images given a few images of a subject and a text prompt, and controllable
generation where the goal is to enable the model to take in additional control
signals. We empirically show that our OFT framework outperforms existing
methods in generation quality and convergence speed.