Mix-of-Show: Adattamento Decentralizzato a Basso Rango per la Personalizzazione Multi-Concetto dei Modelli di Diffusione
Mix-of-Show: Decentralized Low-Rank Adaptation for Multi-Concept Customization of Diffusion Models
May 29, 2023
Autori: Yuchao Gu, Xintao Wang, Jay Zhangjie Wu, Yujun Shi, Yunpeng Chen, Zihan Fan, Wuyou Xiao, Rui Zhao, Shuning Chang, Weijia Wu, Yixiao Ge, Ying Shan, Mike Zheng Shou
cs.AI
Abstract
I modelli di diffusione su larga scala per la generazione di immagini da testo, come Stable Diffusion, hanno attirato notevole attenzione da parte della comunità. Questi modelli possono essere facilmente personalizzati per nuovi concetti utilizzando adattamenti a basso rango (LoRA). Tuttavia, l'utilizzo di più LoRA per concetti diversi al fine di supportare congiuntamente più concetti personalizzati rappresenta una sfida. Questo scenario viene definito come personalizzazione decentralizzata multi-concetto, che coinvolge l'ottimizzazione dei concetti da parte di singoli clienti e la fusione dei concetti a livello centrale. In questo articolo, proponiamo un nuovo framework chiamato Mix-of-Show che affronta le sfide della personalizzazione decentralizzata multi-concetto, inclusi i conflitti tra concetti derivanti dall'ottimizzazione LoRA da parte di singoli clienti e la perdita di identità durante la fusione dei modelli. Mix-of-Show adotta un LoRA a decomposizione di embedding (ED-LoRA) per l'ottimizzazione da parte di singoli clienti e una fusione basata sui gradienti per il nodo centrale, al fine di preservare l'essenza intrinseca dei singoli concetti e supportare teoricamente una fusione illimitata di concetti. Inoltre, introduciamo un campionamento controllato a livello regionale, che estende il campionamento controllato spazialmente (ad esempio, ControlNet e T2I-Adaptor) per affrontare i problemi di associazione degli attributi e di oggetti mancanti nel campionamento multi-concetto. Esperimenti estensivi dimostrano che Mix-of-Show è in grado di comporre più concetti personalizzati con alta fedeltà, inclusi personaggi, oggetti e scene.
English
Public large-scale text-to-image diffusion models, such as Stable Diffusion,
have gained significant attention from the community. These models can be
easily customized for new concepts using low-rank adaptations (LoRAs). However,
the utilization of multiple concept LoRAs to jointly support multiple
customized concepts presents a challenge. We refer to this scenario as
decentralized multi-concept customization, which involves single-client concept
tuning and center-node concept fusion. In this paper, we propose a new
framework called Mix-of-Show that addresses the challenges of decentralized
multi-concept customization, including concept conflicts resulting from
existing single-client LoRA tuning and identity loss during model fusion.
Mix-of-Show adopts an embedding-decomposed LoRA (ED-LoRA) for single-client
tuning and gradient fusion for the center node to preserve the in-domain
essence of single concepts and support theoretically limitless concept fusion.
Additionally, we introduce regionally controllable sampling, which extends
spatially controllable sampling (e.g., ControlNet and T2I-Adaptor) to address
attribute binding and missing object problems in multi-concept sampling.
Extensive experiments demonstrate that Mix-of-Show is capable of composing
multiple customized concepts with high fidelity, including characters, objects,
and scenes.