Mix-of-Show: Adaptação Descentralizada de Baixa Ordem para Personalização Multi-Conceito de Modelos de Difusão
Mix-of-Show: Decentralized Low-Rank Adaptation for Multi-Concept Customization of Diffusion Models
May 29, 2023
Autores: Yuchao Gu, Xintao Wang, Jay Zhangjie Wu, Yujun Shi, Yunpeng Chen, Zihan Fan, Wuyou Xiao, Rui Zhao, Shuning Chang, Weijia Wu, Yixiao Ge, Ying Shan, Mike Zheng Shou
cs.AI
Resumo
Modelos públicos de difusão de texto para imagem em grande escala, como o Stable Diffusion, têm ganhado atenção significativa da comunidade. Esses modelos podem ser facilmente personalizados para novos conceitos usando adaptações de baixo posto (LoRAs). No entanto, a utilização de múltiplos LoRAs de conceito para suportar conjuntamente vários conceitos personalizados apresenta um desafio. Referimo-nos a esse cenário como personalização descentralizada de múltiplos conceitos, que envolve ajuste de conceito de cliente único e fusão de conceito no nó central. Neste artigo, propomos uma nova estrutura chamada Mix-of-Show que aborda os desafios da personalização descentralizada de múltiplos conceitos, incluindo conflitos de conceito resultantes do ajuste de LoRA de cliente único existente e perda de identidade durante a fusão de modelos. O Mix-of-Show adota um LoRA de decomposição de incorporação (ED-LoRA) para ajuste de cliente único e fusão de gradiente para o nó central, a fim de preservar a essência no domínio de conceitos únicos e suportar fusão de conceitos teoricamente ilimitada. Além disso, introduzimos amostragem regionalmente controlável, que estende a amostragem espacialmente controlável (por exemplo, ControlNet e T2I-Adaptor) para abordar problemas de vinculação de atributos e objetos ausentes na amostragem de múltiplos conceitos. Experimentos extensivos demonstram que o Mix-of-Show é capaz de compor múltiplos conceitos personalizados com alta fidelidade, incluindo personagens, objetos e cenários.
English
Public large-scale text-to-image diffusion models, such as Stable Diffusion,
have gained significant attention from the community. These models can be
easily customized for new concepts using low-rank adaptations (LoRAs). However,
the utilization of multiple concept LoRAs to jointly support multiple
customized concepts presents a challenge. We refer to this scenario as
decentralized multi-concept customization, which involves single-client concept
tuning and center-node concept fusion. In this paper, we propose a new
framework called Mix-of-Show that addresses the challenges of decentralized
multi-concept customization, including concept conflicts resulting from
existing single-client LoRA tuning and identity loss during model fusion.
Mix-of-Show adopts an embedding-decomposed LoRA (ED-LoRA) for single-client
tuning and gradient fusion for the center node to preserve the in-domain
essence of single concepts and support theoretically limitless concept fusion.
Additionally, we introduce regionally controllable sampling, which extends
spatially controllable sampling (e.g., ControlNet and T2I-Adaptor) to address
attribute binding and missing object problems in multi-concept sampling.
Extensive experiments demonstrate that Mix-of-Show is capable of composing
multiple customized concepts with high fidelity, including characters, objects,
and scenes.