Mix-of-Show : Adaptation Décentralisée à Faible Rang pour la Personnalisation Multi-Concept des Modèles de Diffusion

papers.abstract

Les modèles publics de diffusion texte-image à grande échelle, tels que Stable Diffusion, ont suscité un intérêt considérable de la part de la communauté. Ces modèles peuvent être facilement personnalisés pour de nouveaux concepts grâce à des adaptations de faible rang (LoRAs). Cependant, l'utilisation simultanée de plusieurs LoRAs de concepts pour prendre en charge plusieurs concepts personnalisés pose un défi. Nous qualifions ce scénario de personnalisation multi-concepts décentralisée, qui implique un ajustement de concept côté client unique et une fusion de concepts côté nœud central. Dans cet article, nous proposons un nouveau cadre appelé Mix-of-Show qui relève les défis de la personnalisation multi-concepts décentralisée, notamment les conflits de concepts résultant de l'ajustement LoRA côté client unique et la perte d'identité lors de la fusion des modèles. Mix-of-Show adopte une LoRA à décomposition d'embedding (ED-LoRA) pour l'ajustement côté client unique et une fusion par gradient pour le nœud central, afin de préserver l'essence intra-domaine des concepts individuels et de permettre une fusion théoriquement illimitée de concepts. De plus, nous introduisons un échantillonnage contrôlable régional, qui étend l'échantillonnage spatialement contrôlable (par exemple, ControlNet et T2I-Adaptor) pour résoudre les problèmes de liaison d'attributs et d'objets manquants dans l'échantillonnage multi-concepts. Des expériences approfondies démontrent que Mix-of-Show est capable de composer plusieurs concepts personnalisés avec une grande fidélité, incluant des personnages, des objets et des scènes.

English

Public large-scale text-to-image diffusion models, such as Stable Diffusion, have gained significant attention from the community. These models can be easily customized for new concepts using low-rank adaptations (LoRAs). However, the utilization of multiple concept LoRAs to jointly support multiple customized concepts presents a challenge. We refer to this scenario as decentralized multi-concept customization, which involves single-client concept tuning and center-node concept fusion. In this paper, we propose a new framework called Mix-of-Show that addresses the challenges of decentralized multi-concept customization, including concept conflicts resulting from existing single-client LoRA tuning and identity loss during model fusion. Mix-of-Show adopts an embedding-decomposed LoRA (ED-LoRA) for single-client tuning and gradient fusion for the center node to preserve the in-domain essence of single concepts and support theoretically limitless concept fusion. Additionally, we introduce regionally controllable sampling, which extends spatially controllable sampling (e.g., ControlNet and T2I-Adaptor) to address attribute binding and missing object problems in multi-concept sampling. Extensive experiments demonstrate that Mix-of-Show is capable of composing multiple customized concepts with high fidelity, including characters, objects, and scenes.

Mix-of-Show : Adaptation Décentralisée à Faible Rang pour la Personnalisation Multi-Concept des Modèles de Diffusion

Mix-of-Show: Decentralized Low-Rank Adaptation for Multi-Concept Customization of Diffusion Models

papers.abstract

Support