확산 모델의 모듈식 맞춤화를 위한 직교 적응
Orthogonal Adaptation for Modular Customization of Diffusion Models
December 5, 2023
저자: Ryan Po, Guandao Yang, Kfir Aberman, Gordon Wetzstein
cs.AI
초록
텍스트-이미지 모델의 맞춤화 기술은 이전에는 달성하기 어려웠던 다양한 응용 분야의 길을 열어, 다양한 맥락과 스타일에서 특정 개념을 생성할 수 있게 하였습니다. 기존 방법들은 개별 개념이나 사전 정의된 제한된 개념 집합에 대해 높은 충실도의 맞춤화를 가능하게 하지만, 단일 모델이 무수한 개념을 원활하게 렌더링할 수 있는 확장성을 달성하는 데는 한계가 있습니다. 본 논문에서는 개별 개념에 대해 독립적으로 미세 조정된 맞춤화 모델을 효율적으로 통합하여, 통합된 모델이 하나의 이미지에서 여러 개념을 충실도 저하 없이 추가적인 계산 비용 없이 함께 합성할 수 있도록 하는 새로운 문제인 모듈형 맞춤화(Modular Customization)를 다룹니다.
이 문제를 해결하기 위해, 우리는 직교 적응(Orthogonal Adaptation)이라는 방법을 제안합니다. 이 방법은 미세 조정 과정에서 서로 접근할 수 없는 맞춤화 모델들이 직교 잔차 가중치를 갖도록 유도하여, 추론 시 맞춤화 모델들이 최소한의 간섭으로 합산될 수 있도록 합니다.
우리가 제안한 방법은 단순하면서도 다용도로, 모델 아키텍처에서 최적화 가능한 거의 모든 가중치에 적용할 수 있습니다. 광범위한 정량적 및 정성적 평가를 통해, 우리의 방법은 효율성과 정체성 보존 측면에서 관련 기준선을 일관되게 능가하며, 확산 모델의 확장 가능한 맞춤화를 향한 중요한 도약을 보여줍니다.
English
Customization techniques for text-to-image models have paved the way for a
wide range of previously unattainable applications, enabling the generation of
specific concepts across diverse contexts and styles. While existing methods
facilitate high-fidelity customization for individual concepts or a limited,
pre-defined set of them, they fall short of achieving scalability, where a
single model can seamlessly render countless concepts. In this paper, we
address a new problem called Modular Customization, with the goal of
efficiently merging customized models that were fine-tuned independently for
individual concepts. This allows the merged model to jointly synthesize
concepts in one image without compromising fidelity or incurring any additional
computational costs.
To address this problem, we introduce Orthogonal Adaptation, a method
designed to encourage the customized models, which do not have access to each
other during fine-tuning, to have orthogonal residual weights. This ensures
that during inference time, the customized models can be summed with minimal
interference.
Our proposed method is both simple and versatile, applicable to nearly all
optimizable weights in the model architecture. Through an extensive set of
quantitative and qualitative evaluations, our method consistently outperforms
relevant baselines in terms of efficiency and identity preservation,
demonstrating a significant leap toward scalable customization of diffusion
models.