ChatPaper.aiChatPaper

X-Adapter: Universele Compatibiliteit van Plug-ins Toevoegen voor Geüpgradede Diffusiemodellen

X-Adapter: Adding Universal Compatibility of Plugins for Upgraded Diffusion Model

December 4, 2023
Auteurs: Lingmin Ran, Xiaodong Cun, JiaWei Liu, Rui Zhao, Song Zijie, Xintao Wang, Jussi Keppo, Mike Zheng Shou
cs.AI

Samenvatting

We introduceren X-Adapter, een universele upgrademodule om vooraf getrainde plug-and-play modules (bijvoorbeeld ControlNet, LoRA) direct te laten werken met een geüpgradet tekst-naar-beeld diffusiemodel (bijvoorbeeld SDXL) zonder verdere hertraining. We bereiken dit doel door een extra netwerk te trainen om het bevroren geüpgradete model te besturen met nieuwe tekst-beeld dataparen. In detail behoudt X-Adapter een bevroren kopie van het oude model om de connectoren van verschillende plugins te behouden. Daarnaast voegt X-Adapter trainbare mappinglagen toe die de decoders van modellen van verschillende versies met elkaar verbinden voor feature-remapping. De geremapte features worden gebruikt als begeleiding voor het geüpgradete model. Om de begeleidingscapaciteit van X-Adapter te verbeteren, gebruiken we een null-text trainingsstrategie voor het geüpgradete model. Na de training introduceren we ook een tweestaps denoisingstrategie om de initiële latenten van X-Adapter en het geüpgradete model uit te lijnen. Dankzij onze strategieën toont X-Adapter universele compatibiliteit met verschillende plugins en maakt het ook mogelijk dat plugins van verschillende versies samenwerken, waardoor de functionaliteiten van de diffusiecommunity worden uitgebreid. Om de effectiviteit van de voorgestelde methode te verifiëren, voeren we uitgebreide experimenten uit en de resultaten tonen aan dat X-Adapter een bredere toepassing in het geüpgradete fundamentele diffusiemodel kan faciliteren.
English
We introduce X-Adapter, a universal upgrader to enable the pretrained plug-and-play modules (e.g., ControlNet, LoRA) to work directly with the upgraded text-to-image diffusion model (e.g., SDXL) without further retraining. We achieve this goal by training an additional network to control the frozen upgraded model with the new text-image data pairs. In detail, X-Adapter keeps a frozen copy of the old model to preserve the connectors of different plugins. Additionally, X-Adapter adds trainable mapping layers that bridge the decoders from models of different versions for feature remapping. The remapped features will be used as guidance for the upgraded model. To enhance the guidance ability of X-Adapter, we employ a null-text training strategy for the upgraded model. After training, we also introduce a two-stage denoising strategy to align the initial latents of X-Adapter and the upgraded model. Thanks to our strategies, X-Adapter demonstrates universal compatibility with various plugins and also enables plugins of different versions to work together, thereby expanding the functionalities of diffusion community. To verify the effectiveness of the proposed method, we conduct extensive experiments and the results show that X-Adapter may facilitate wider application in the upgraded foundational diffusion model.
PDF281December 15, 2024