ChatPaper.aiChatPaper

X-Adapter: Universelle Plugin-Kompatibilität für aktualisierte Diffusionsmodelle

X-Adapter: Adding Universal Compatibility of Plugins for Upgraded Diffusion Model

December 4, 2023
Autoren: Lingmin Ran, Xiaodong Cun, JiaWei Liu, Rui Zhao, Song Zijie, Xintao Wang, Jussi Keppo, Mike Zheng Shou
cs.AI

Zusammenfassung

Wir stellen X-Adapter vor, einen universellen Upgrader, der es vortrainierten Plug-and-Play-Modulen (z. B. ControlNet, LoRA) ermöglicht, direkt mit dem aktualisierten Text-zu-Bild-Diffusionsmodell (z. B. SDXL) zu arbeiten, ohne dass eine weitere Nachschulung erforderlich ist. Dieses Ziel erreichen wir, indem wir ein zusätzliches Netzwerk trainieren, um das eingefrorene aktualisierte Modell mit neuen Text-Bild-Datenpaaren zu steuern. Im Detail behält X-Adapter eine eingefrorene Kopie des alten Modells, um die Verbindungen verschiedener Plugins zu bewahren. Zusätzlich fügt X-Adapter trainierbare Mapping-Schichten hinzu, die die Decoder von Modellen unterschiedlicher Versionen für die Feature-Remapping verbinden. Die remappten Features werden als Anleitung für das aktualisierte Modell verwendet. Um die Anleitungsfähigkeit von X-Adapter zu verbessern, verwenden wir eine Null-Text-Trainingsstrategie für das aktualisierte Modell. Nach dem Training führen wir auch eine zweistufige Denoising-Strategie ein, um die initialen Latents von X-Adapter und dem aktualisierten Modell auszurichten. Dank unserer Strategien zeigt X-Adapter universelle Kompatibilität mit verschiedenen Plugins und ermöglicht es auch Plugins unterschiedlicher Versionen, zusammenzuarbeiten, wodurch die Funktionalitäten der Diffusions-Community erweitert werden. Um die Wirksamkeit der vorgeschlagenen Methode zu überprüfen, führen wir umfangreiche Experimente durch, und die Ergebnisse zeigen, dass X-Adapter eine breitere Anwendung im aktualisierten grundlegenden Diffusionsmodell erleichtern kann.
English
We introduce X-Adapter, a universal upgrader to enable the pretrained plug-and-play modules (e.g., ControlNet, LoRA) to work directly with the upgraded text-to-image diffusion model (e.g., SDXL) without further retraining. We achieve this goal by training an additional network to control the frozen upgraded model with the new text-image data pairs. In detail, X-Adapter keeps a frozen copy of the old model to preserve the connectors of different plugins. Additionally, X-Adapter adds trainable mapping layers that bridge the decoders from models of different versions for feature remapping. The remapped features will be used as guidance for the upgraded model. To enhance the guidance ability of X-Adapter, we employ a null-text training strategy for the upgraded model. After training, we also introduce a two-stage denoising strategy to align the initial latents of X-Adapter and the upgraded model. Thanks to our strategies, X-Adapter demonstrates universal compatibility with various plugins and also enables plugins of different versions to work together, thereby expanding the functionalities of diffusion community. To verify the effectiveness of the proposed method, we conduct extensive experiments and the results show that X-Adapter may facilitate wider application in the upgraded foundational diffusion model.
PDF281December 15, 2024