Mix-of-Show : Adaptation Décentralisée à Faible Rang pour la Personnalisation Multi-Concept des Modèles de Diffusion
Mix-of-Show: Decentralized Low-Rank Adaptation for Multi-Concept Customization of Diffusion Models
May 29, 2023
Auteurs: Yuchao Gu, Xintao Wang, Jay Zhangjie Wu, Yujun Shi, Yunpeng Chen, Zihan Fan, Wuyou Xiao, Rui Zhao, Shuning Chang, Weijia Wu, Yixiao Ge, Ying Shan, Mike Zheng Shou
cs.AI
Résumé
Les modèles publics de diffusion texte-image à grande échelle, tels que Stable Diffusion, ont suscité un intérêt considérable de la part de la communauté. Ces modèles peuvent être facilement personnalisés pour de nouveaux concepts grâce à des adaptations de faible rang (LoRAs). Cependant, l'utilisation simultanée de plusieurs LoRAs de concepts pour prendre en charge plusieurs concepts personnalisés pose un défi. Nous qualifions ce scénario de personnalisation multi-concepts décentralisée, qui implique un ajustement de concept côté client unique et une fusion de concepts côté nœud central. Dans cet article, nous proposons un nouveau cadre appelé Mix-of-Show qui relève les défis de la personnalisation multi-concepts décentralisée, notamment les conflits de concepts résultant de l'ajustement LoRA côté client unique et la perte d'identité lors de la fusion des modèles. Mix-of-Show adopte une LoRA à décomposition d'embedding (ED-LoRA) pour l'ajustement côté client unique et une fusion par gradient pour le nœud central, afin de préserver l'essence intra-domaine des concepts individuels et de permettre une fusion théoriquement illimitée de concepts. De plus, nous introduisons un échantillonnage contrôlable régional, qui étend l'échantillonnage spatialement contrôlable (par exemple, ControlNet et T2I-Adaptor) pour résoudre les problèmes de liaison d'attributs et d'objets manquants dans l'échantillonnage multi-concepts. Des expériences approfondies démontrent que Mix-of-Show est capable de composer plusieurs concepts personnalisés avec une grande fidélité, incluant des personnages, des objets et des scènes.
English
Public large-scale text-to-image diffusion models, such as Stable Diffusion,
have gained significant attention from the community. These models can be
easily customized for new concepts using low-rank adaptations (LoRAs). However,
the utilization of multiple concept LoRAs to jointly support multiple
customized concepts presents a challenge. We refer to this scenario as
decentralized multi-concept customization, which involves single-client concept
tuning and center-node concept fusion. In this paper, we propose a new
framework called Mix-of-Show that addresses the challenges of decentralized
multi-concept customization, including concept conflicts resulting from
existing single-client LoRA tuning and identity loss during model fusion.
Mix-of-Show adopts an embedding-decomposed LoRA (ED-LoRA) for single-client
tuning and gradient fusion for the center node to preserve the in-domain
essence of single concepts and support theoretically limitless concept fusion.
Additionally, we introduce regionally controllable sampling, which extends
spatially controllable sampling (e.g., ControlNet and T2I-Adaptor) to address
attribute binding and missing object problems in multi-concept sampling.
Extensive experiments demonstrate that Mix-of-Show is capable of composing
multiple customized concepts with high fidelity, including characters, objects,
and scenes.