Mix-of-Show: Dezentrale Low-Rank-Adaptation für die Multi-Konzept-Anpassung von Diffusionsmodellen
Mix-of-Show: Decentralized Low-Rank Adaptation for Multi-Concept Customization of Diffusion Models
May 29, 2023
Autoren: Yuchao Gu, Xintao Wang, Jay Zhangjie Wu, Yujun Shi, Yunpeng Chen, Zihan Fan, Wuyou Xiao, Rui Zhao, Shuning Chang, Weijia Wu, Yixiao Ge, Ying Shan, Mike Zheng Shou
cs.AI
Zusammenfassung
Öffentlich zugängliche großskalige Text-zu-Bild-Diffusionsmodelle wie Stable Diffusion haben erhebliche Aufmerksamkeit in der Community erregt. Diese Modelle können mithilfe von Low-Rank-Adaptationen (LoRAs) leicht für neue Konzepte angepasst werden. Die Nutzung mehrerer Konzept-LoRAs, um gemeinsam mehrere angepasste Konzepte zu unterstützen, stellt jedoch eine Herausforderung dar. Wir bezeichnen dieses Szenario als dezentrale Multi-Konzept-Anpassung, die die Konzeptanpassung auf Einzelkundenebene und die Konzeptfusion auf zentraler Ebene umfasst. In diesem Artikel schlagen wir ein neues Framework namens Mix-of-Show vor, das die Herausforderungen der dezentralen Multi-Konzept-Anpassung adressiert, einschließlich Konzeptkonflikten, die durch bestehende Einzelkunden-LoRA-Anpassungen entstehen, und Identitätsverlust während der Modellfusion. Mix-of-Show verwendet eine embedding-dekomponierte LoRA (ED-LoRA) für die Einzelkundenanpassung und Gradientenfusion für den zentralen Knoten, um die domänenspezifische Essenz einzelner Konzepte zu bewahren und theoretisch unbegrenzte Konzeptfusion zu unterstützen. Zusätzlich führen wir regional kontrollierbares Sampling ein, das räumlich kontrollierbares Sampling (z.B. ControlNet und T2I-Adaptor) erweitert, um Probleme der Attributbindung und fehlender Objekte beim Multi-Konzept-Sampling zu lösen. Umfangreiche Experimente zeigen, dass Mix-of-Show in der Lage ist, mehrere angepasste Konzepte, einschließlich Charaktere, Objekte und Szenen, mit hoher Detailtreue zu kombinieren.
English
Public large-scale text-to-image diffusion models, such as Stable Diffusion,
have gained significant attention from the community. These models can be
easily customized for new concepts using low-rank adaptations (LoRAs). However,
the utilization of multiple concept LoRAs to jointly support multiple
customized concepts presents a challenge. We refer to this scenario as
decentralized multi-concept customization, which involves single-client concept
tuning and center-node concept fusion. In this paper, we propose a new
framework called Mix-of-Show that addresses the challenges of decentralized
multi-concept customization, including concept conflicts resulting from
existing single-client LoRA tuning and identity loss during model fusion.
Mix-of-Show adopts an embedding-decomposed LoRA (ED-LoRA) for single-client
tuning and gradient fusion for the center node to preserve the in-domain
essence of single concepts and support theoretically limitless concept fusion.
Additionally, we introduce regionally controllable sampling, which extends
spatially controllable sampling (e.g., ControlNet and T2I-Adaptor) to address
attribute binding and missing object problems in multi-concept sampling.
Extensive experiments demonstrate that Mix-of-Show is capable of composing
multiple customized concepts with high fidelity, including characters, objects,
and scenes.