Mix-of-Show: 다중 개념 맞춤형 확산 모델을 위한 분산형 저순위 적응 기법
Mix-of-Show: Decentralized Low-Rank Adaptation for Multi-Concept Customization of Diffusion Models
May 29, 2023
저자: Yuchao Gu, Xintao Wang, Jay Zhangjie Wu, Yujun Shi, Yunpeng Chen, Zihan Fan, Wuyou Xiao, Rui Zhao, Shuning Chang, Weijia Wu, Yixiao Ge, Ying Shan, Mike Zheng Shou
cs.AI
초록
Stable Diffusion과 같은 공개 대규모 텍스트-이미지 확산 모델은 커뮤니티로부터 상당한 관심을 받고 있습니다. 이러한 모델은 저순위 적응(LoRA)을 통해 새로운 개념으로 쉽게 맞춤화할 수 있습니다. 그러나 다중 개념 LoRA를 활용하여 여러 맞춤화된 개념을 공동으로 지원하는 것은 여전히 과제로 남아 있습니다. 우리는 이러한 시나리오를 단일 클라이언트 개념 튜닝과 중앙 노드 개념 융합을 포함하는 분산형 다중 개념 맞춤화(decentralized multi-concept customization)라고 부릅니다. 본 논문에서는 기존 단일 클라이언트 LoRA 튜닝으로 인한 개념 충돌과 모델 융합 중 발생하는 정체성 손실과 같은 분산형 다중 개념 맞춤화의 과제를 해결하기 위해 Mix-of-Show라는 새로운 프레임워크를 제안합니다. Mix-of-Show는 단일 클라이언트 튜닝을 위해 임베딩 분해 LoRA(ED-LoRA)를 채택하고, 중앙 노드에서는 그레이디언트 융합을 통해 단일 개념의 도메인 내 본질을 보존하면서 이론적으로 무제한의 개념 융합을 지원합니다. 또한, 다중 개념 샘플링에서 속성 바인딩 및 객체 누락 문제를 해결하기 위해 공간적으로 제어 가능한 샘플링(예: ControlNet 및 T2I-Adaptor)을 확장한 지역적 제어 샘플링(regionally controllable sampling)을 도입합니다. 광범위한 실험을 통해 Mix-of-Show가 캐릭터, 객체, 장면을 포함한 여러 맞춤화된 개념을 높은 충실도로 구성할 수 있음을 입증합니다.
English
Public large-scale text-to-image diffusion models, such as Stable Diffusion,
have gained significant attention from the community. These models can be
easily customized for new concepts using low-rank adaptations (LoRAs). However,
the utilization of multiple concept LoRAs to jointly support multiple
customized concepts presents a challenge. We refer to this scenario as
decentralized multi-concept customization, which involves single-client concept
tuning and center-node concept fusion. In this paper, we propose a new
framework called Mix-of-Show that addresses the challenges of decentralized
multi-concept customization, including concept conflicts resulting from
existing single-client LoRA tuning and identity loss during model fusion.
Mix-of-Show adopts an embedding-decomposed LoRA (ED-LoRA) for single-client
tuning and gradient fusion for the center node to preserve the in-domain
essence of single concepts and support theoretically limitless concept fusion.
Additionally, we introduce regionally controllable sampling, which extends
spatially controllable sampling (e.g., ControlNet and T2I-Adaptor) to address
attribute binding and missing object problems in multi-concept sampling.
Extensive experiments demonstrate that Mix-of-Show is capable of composing
multiple customized concepts with high fidelity, including characters, objects,
and scenes.