ChatPaper.aiChatPaper

Mix-of-Show: Adaptação Descentralizada de Baixa Ordem para Personalização Multi-Conceito de Modelos de Difusão

Mix-of-Show: Decentralized Low-Rank Adaptation for Multi-Concept Customization of Diffusion Models

May 29, 2023
Autores: Yuchao Gu, Xintao Wang, Jay Zhangjie Wu, Yujun Shi, Yunpeng Chen, Zihan Fan, Wuyou Xiao, Rui Zhao, Shuning Chang, Weijia Wu, Yixiao Ge, Ying Shan, Mike Zheng Shou
cs.AI

Resumo

Modelos públicos de difusão de texto para imagem em grande escala, como o Stable Diffusion, têm ganhado atenção significativa da comunidade. Esses modelos podem ser facilmente personalizados para novos conceitos usando adaptações de baixo posto (LoRAs). No entanto, a utilização de múltiplos LoRAs de conceito para suportar conjuntamente vários conceitos personalizados apresenta um desafio. Referimo-nos a esse cenário como personalização descentralizada de múltiplos conceitos, que envolve ajuste de conceito de cliente único e fusão de conceito no nó central. Neste artigo, propomos uma nova estrutura chamada Mix-of-Show que aborda os desafios da personalização descentralizada de múltiplos conceitos, incluindo conflitos de conceito resultantes do ajuste de LoRA de cliente único existente e perda de identidade durante a fusão de modelos. O Mix-of-Show adota um LoRA de decomposição de incorporação (ED-LoRA) para ajuste de cliente único e fusão de gradiente para o nó central, a fim de preservar a essência no domínio de conceitos únicos e suportar fusão de conceitos teoricamente ilimitada. Além disso, introduzimos amostragem regionalmente controlável, que estende a amostragem espacialmente controlável (por exemplo, ControlNet e T2I-Adaptor) para abordar problemas de vinculação de atributos e objetos ausentes na amostragem de múltiplos conceitos. Experimentos extensivos demonstram que o Mix-of-Show é capaz de compor múltiplos conceitos personalizados com alta fidelidade, incluindo personagens, objetos e cenários.
English
Public large-scale text-to-image diffusion models, such as Stable Diffusion, have gained significant attention from the community. These models can be easily customized for new concepts using low-rank adaptations (LoRAs). However, the utilization of multiple concept LoRAs to jointly support multiple customized concepts presents a challenge. We refer to this scenario as decentralized multi-concept customization, which involves single-client concept tuning and center-node concept fusion. In this paper, we propose a new framework called Mix-of-Show that addresses the challenges of decentralized multi-concept customization, including concept conflicts resulting from existing single-client LoRA tuning and identity loss during model fusion. Mix-of-Show adopts an embedding-decomposed LoRA (ED-LoRA) for single-client tuning and gradient fusion for the center node to preserve the in-domain essence of single concepts and support theoretically limitless concept fusion. Additionally, we introduce regionally controllable sampling, which extends spatially controllable sampling (e.g., ControlNet and T2I-Adaptor) to address attribute binding and missing object problems in multi-concept sampling. Extensive experiments demonstrate that Mix-of-Show is capable of composing multiple customized concepts with high fidelity, including characters, objects, and scenes.
PDF51February 8, 2026