Mix-of-Show: Децентрализованная адаптация с низким рангом для многоконцептуальной настройки диффузионных моделей
Mix-of-Show: Decentralized Low-Rank Adaptation for Multi-Concept Customization of Diffusion Models
May 29, 2023
Авторы: Yuchao Gu, Xintao Wang, Jay Zhangjie Wu, Yujun Shi, Yunpeng Chen, Zihan Fan, Wuyou Xiao, Rui Zhao, Shuning Chang, Weijia Wu, Yixiao Ge, Ying Shan, Mike Zheng Shou
cs.AI
Аннотация
Крупномасштабные публичные модели генерации изображений из текста на основе диффузии, такие как Stable Diffusion, привлекли значительное внимание сообщества. Эти модели могут быть легко адаптированы для новых концепций с использованием низкоранговых адаптаций (LoRA). Однако использование нескольких LoRA для совместной поддержки множества пользовательских концепций представляет собой сложную задачу. Мы называем этот сценарий децентрализованной многоконцептной адаптацией, которая включает в себя настройку концепций на стороне отдельного клиента и слияние концепций на центральном узле. В данной статье мы предлагаем новый фреймворк под названием Mix-of-Show, который решает проблемы децентрализованной многоконцептной адаптации, включая конфликты концепций, возникающие из-за существующей настройки LoRA на стороне отдельного клиента, и потерю идентичности при слиянии моделей. Mix-of-Show использует LoRA с декомпозицией вложений (ED-LoRA) для настройки на стороне клиента и градиентное слияние на центральном узле, чтобы сохранить сущность отдельных концепций в рамках их домена и поддерживать теоретически неограниченное слияние концепций. Кроме того, мы представляем регионально управляемую выборку, которая расширяет пространственно управляемую выборку (например, ControlNet и T2I-Adaptor) для решения проблем связывания атрибутов и отсутствия объектов при многоконцептной выборке. Многочисленные эксперименты демонстрируют, что Mix-of-Show способен составлять множество пользовательских концепций с высокой точностью, включая персонажей, объекты и сцены.
English
Public large-scale text-to-image diffusion models, such as Stable Diffusion,
have gained significant attention from the community. These models can be
easily customized for new concepts using low-rank adaptations (LoRAs). However,
the utilization of multiple concept LoRAs to jointly support multiple
customized concepts presents a challenge. We refer to this scenario as
decentralized multi-concept customization, which involves single-client concept
tuning and center-node concept fusion. In this paper, we propose a new
framework called Mix-of-Show that addresses the challenges of decentralized
multi-concept customization, including concept conflicts resulting from
existing single-client LoRA tuning and identity loss during model fusion.
Mix-of-Show adopts an embedding-decomposed LoRA (ED-LoRA) for single-client
tuning and gradient fusion for the center node to preserve the in-domain
essence of single concepts and support theoretically limitless concept fusion.
Additionally, we introduce regionally controllable sampling, which extends
spatially controllable sampling (e.g., ControlNet and T2I-Adaptor) to address
attribute binding and missing object problems in multi-concept sampling.
Extensive experiments demonstrate that Mix-of-Show is capable of composing
multiple customized concepts with high fidelity, including characters, objects,
and scenes.