X-Adapter : Ajout de la compatibilité universelle des plugins pour les modèles de diffusion améliorés
X-Adapter: Adding Universal Compatibility of Plugins for Upgraded Diffusion Model
December 4, 2023
Auteurs: Lingmin Ran, Xiaodong Cun, JiaWei Liu, Rui Zhao, Song Zijie, Xintao Wang, Jussi Keppo, Mike Zheng Shou
cs.AI
Résumé
Nous présentons X-Adapter, un adaptateur universel permettant aux modules pré-entraînés prêts à l'emploi (par exemple, ControlNet, LoRA) de fonctionner directement avec un modèle de diffusion texte-image mis à niveau (par exemple, SDXL) sans nécessiter de réentraînement supplémentaire. Nous atteignons cet objectif en entraînant un réseau supplémentaire pour contrôler le modèle mis à niveau figé avec de nouvelles paires de données texte-image. Plus précisément, X-Adapter conserve une copie figée de l'ancien modèle pour préserver les connecteurs des différents plugins. De plus, X-Adapter ajoute des couches de mappage entraînables qui relient les décodeurs des modèles de différentes versions pour le remappage des caractéristiques. Les caractéristiques remappées seront utilisées comme guide pour le modèle mis à niveau. Pour améliorer la capacité de guidage de X-Adapter, nous employons une stratégie d'entraînement par texte nul pour le modèle mis à niveau. Après l'entraînement, nous introduisons également une stratégie de débruitage en deux étapes pour aligner les latents initiaux de X-Adapter et du modèle mis à niveau. Grâce à nos stratégies, X-Adapter démontre une compatibilité universelle avec divers plugins et permet également à des plugins de différentes versions de fonctionner ensemble, élargissant ainsi les fonctionnalités de la communauté de la diffusion. Pour vérifier l'efficacité de la méthode proposée, nous menons des expériences approfondies et les résultats montrent que X-Adapter peut faciliter une application plus large dans le modèle de diffusion fondamental mis à niveau.
English
We introduce X-Adapter, a universal upgrader to enable the pretrained
plug-and-play modules (e.g., ControlNet, LoRA) to work directly with the
upgraded text-to-image diffusion model (e.g., SDXL) without further retraining.
We achieve this goal by training an additional network to control the frozen
upgraded model with the new text-image data pairs. In detail, X-Adapter keeps a
frozen copy of the old model to preserve the connectors of different plugins.
Additionally, X-Adapter adds trainable mapping layers that bridge the decoders
from models of different versions for feature remapping. The remapped features
will be used as guidance for the upgraded model. To enhance the guidance
ability of X-Adapter, we employ a null-text training strategy for the upgraded
model. After training, we also introduce a two-stage denoising strategy to
align the initial latents of X-Adapter and the upgraded model. Thanks to our
strategies, X-Adapter demonstrates universal compatibility with various plugins
and also enables plugins of different versions to work together, thereby
expanding the functionalities of diffusion community. To verify the
effectiveness of the proposed method, we conduct extensive experiments and the
results show that X-Adapter may facilitate wider application in the upgraded
foundational diffusion model.