Mix-of-Show: Adaptação Descentralizada de Baixa Ordem para Personalização Multi-Conceito de Modelos de Difusão

Resumo

Modelos públicos de difusão de texto para imagem em grande escala, como o Stable Diffusion, têm ganhado atenção significativa da comunidade. Esses modelos podem ser facilmente personalizados para novos conceitos usando adaptações de baixo posto (LoRAs). No entanto, a utilização de múltiplos LoRAs de conceito para suportar conjuntamente vários conceitos personalizados apresenta um desafio. Referimo-nos a esse cenário como personalização descentralizada de múltiplos conceitos, que envolve ajuste de conceito de cliente único e fusão de conceito no nó central. Neste artigo, propomos uma nova estrutura chamada Mix-of-Show que aborda os desafios da personalização descentralizada de múltiplos conceitos, incluindo conflitos de conceito resultantes do ajuste de LoRA de cliente único existente e perda de identidade durante a fusão de modelos. O Mix-of-Show adota um LoRA de decomposição de incorporação (ED-LoRA) para ajuste de cliente único e fusão de gradiente para o nó central, a fim de preservar a essência no domínio de conceitos únicos e suportar fusão de conceitos teoricamente ilimitada. Além disso, introduzimos amostragem regionalmente controlável, que estende a amostragem espacialmente controlável (por exemplo, ControlNet e T2I-Adaptor) para abordar problemas de vinculação de atributos e objetos ausentes na amostragem de múltiplos conceitos. Experimentos extensivos demonstram que o Mix-of-Show é capaz de compor múltiplos conceitos personalizados com alta fidelidade, incluindo personagens, objetos e cenários.

English

Public large-scale text-to-image diffusion models, such as Stable Diffusion, have gained significant attention from the community. These models can be easily customized for new concepts using low-rank adaptations (LoRAs). However, the utilization of multiple concept LoRAs to jointly support multiple customized concepts presents a challenge. We refer to this scenario as decentralized multi-concept customization, which involves single-client concept tuning and center-node concept fusion. In this paper, we propose a new framework called Mix-of-Show that addresses the challenges of decentralized multi-concept customization, including concept conflicts resulting from existing single-client LoRA tuning and identity loss during model fusion. Mix-of-Show adopts an embedding-decomposed LoRA (ED-LoRA) for single-client tuning and gradient fusion for the center node to preserve the in-domain essence of single concepts and support theoretically limitless concept fusion. Additionally, we introduce regionally controllable sampling, which extends spatially controllable sampling (e.g., ControlNet and T2I-Adaptor) to address attribute binding and missing object problems in multi-concept sampling. Extensive experiments demonstrate that Mix-of-Show is capable of composing multiple customized concepts with high fidelity, including characters, objects, and scenes.

Mix-of-Show: Adaptação Descentralizada de Baixa Ordem para Personalização Multi-Conceito de Modelos de Difusão

Mix-of-Show: Decentralized Low-Rank Adaptation for Multi-Concept Customization of Diffusion Models

Resumo

Support