Mix-of-Show: Adaptación Descentralizada de Bajo Rango para la Personalización Multi-Concepto de Modelos de Difusión
Mix-of-Show: Decentralized Low-Rank Adaptation for Multi-Concept Customization of Diffusion Models
May 29, 2023
Autores: Yuchao Gu, Xintao Wang, Jay Zhangjie Wu, Yujun Shi, Yunpeng Chen, Zihan Fan, Wuyou Xiao, Rui Zhao, Shuning Chang, Weijia Wu, Yixiao Ge, Ying Shan, Mike Zheng Shou
cs.AI
Resumen
Los modelos públicos de difusión de texto a imagen a gran escala, como Stable Diffusion, han captado una atención significativa por parte de la comunidad. Estos modelos pueden personalizarse fácilmente para nuevos conceptos mediante adaptaciones de bajo rango (LoRAs). Sin embargo, la utilización de múltiples LoRAs de conceptos para respaldar conjuntamente múltiples conceptos personalizados presenta un desafío. Nos referimos a este escenario como personalización descentralizada de múltiples conceptos, que implica el ajuste de conceptos en un solo cliente y la fusión de conceptos en un nodo central. En este artículo, proponemos un nuevo marco llamado Mix-of-Show que aborda los desafíos de la personalización descentralizada de múltiples conceptos, incluyendo conflictos de conceptos resultantes del ajuste de LoRA en un solo cliente y la pérdida de identidad durante la fusión de modelos. Mix-of-Show adopta una LoRA de descomposición de incrustaciones (ED-LoRA) para el ajuste en un solo cliente y fusión de gradientes para el nodo central, con el fin de preservar la esencia en el dominio de los conceptos individuales y respaldar una fusión teóricamente ilimitada de conceptos. Además, introducimos un muestreo regionalmente controlable, que extiende el muestreo espacialmente controlable (por ejemplo, ControlNet y T2I-Adaptor) para abordar problemas de vinculación de atributos y objetos faltantes en el muestreo de múltiples conceptos. Experimentos exhaustivos demuestran que Mix-of-Show es capaz de componer múltiples conceptos personalizados con alta fidelidad, incluyendo personajes, objetos y escenas.
English
Public large-scale text-to-image diffusion models, such as Stable Diffusion,
have gained significant attention from the community. These models can be
easily customized for new concepts using low-rank adaptations (LoRAs). However,
the utilization of multiple concept LoRAs to jointly support multiple
customized concepts presents a challenge. We refer to this scenario as
decentralized multi-concept customization, which involves single-client concept
tuning and center-node concept fusion. In this paper, we propose a new
framework called Mix-of-Show that addresses the challenges of decentralized
multi-concept customization, including concept conflicts resulting from
existing single-client LoRA tuning and identity loss during model fusion.
Mix-of-Show adopts an embedding-decomposed LoRA (ED-LoRA) for single-client
tuning and gradient fusion for the center node to preserve the in-domain
essence of single concepts and support theoretically limitless concept fusion.
Additionally, we introduce regionally controllable sampling, which extends
spatially controllable sampling (e.g., ControlNet and T2I-Adaptor) to address
attribute binding and missing object problems in multi-concept sampling.
Extensive experiments demonstrate that Mix-of-Show is capable of composing
multiple customized concepts with high fidelity, including characters, objects,
and scenes.