ChatPaper.aiChatPaper

X-Adapter : Ajout de la compatibilité universelle des plugins pour les modèles de diffusion améliorés

X-Adapter: Adding Universal Compatibility of Plugins for Upgraded Diffusion Model

December 4, 2023
Auteurs: Lingmin Ran, Xiaodong Cun, JiaWei Liu, Rui Zhao, Song Zijie, Xintao Wang, Jussi Keppo, Mike Zheng Shou
cs.AI

Résumé

Nous présentons X-Adapter, un adaptateur universel permettant aux modules pré-entraînés prêts à l'emploi (par exemple, ControlNet, LoRA) de fonctionner directement avec un modèle de diffusion texte-image mis à niveau (par exemple, SDXL) sans nécessiter de réentraînement supplémentaire. Nous atteignons cet objectif en entraînant un réseau supplémentaire pour contrôler le modèle mis à niveau figé avec de nouvelles paires de données texte-image. Plus précisément, X-Adapter conserve une copie figée de l'ancien modèle pour préserver les connecteurs des différents plugins. De plus, X-Adapter ajoute des couches de mappage entraînables qui relient les décodeurs des modèles de différentes versions pour le remappage des caractéristiques. Les caractéristiques remappées seront utilisées comme guide pour le modèle mis à niveau. Pour améliorer la capacité de guidage de X-Adapter, nous employons une stratégie d'entraînement par texte nul pour le modèle mis à niveau. Après l'entraînement, nous introduisons également une stratégie de débruitage en deux étapes pour aligner les latents initiaux de X-Adapter et du modèle mis à niveau. Grâce à nos stratégies, X-Adapter démontre une compatibilité universelle avec divers plugins et permet également à des plugins de différentes versions de fonctionner ensemble, élargissant ainsi les fonctionnalités de la communauté de la diffusion. Pour vérifier l'efficacité de la méthode proposée, nous menons des expériences approfondies et les résultats montrent que X-Adapter peut faciliter une application plus large dans le modèle de diffusion fondamental mis à niveau.
English
We introduce X-Adapter, a universal upgrader to enable the pretrained plug-and-play modules (e.g., ControlNet, LoRA) to work directly with the upgraded text-to-image diffusion model (e.g., SDXL) without further retraining. We achieve this goal by training an additional network to control the frozen upgraded model with the new text-image data pairs. In detail, X-Adapter keeps a frozen copy of the old model to preserve the connectors of different plugins. Additionally, X-Adapter adds trainable mapping layers that bridge the decoders from models of different versions for feature remapping. The remapped features will be used as guidance for the upgraded model. To enhance the guidance ability of X-Adapter, we employ a null-text training strategy for the upgraded model. After training, we also introduce a two-stage denoising strategy to align the initial latents of X-Adapter and the upgraded model. Thanks to our strategies, X-Adapter demonstrates universal compatibility with various plugins and also enables plugins of different versions to work together, thereby expanding the functionalities of diffusion community. To verify the effectiveness of the proposed method, we conduct extensive experiments and the results show that X-Adapter may facilitate wider application in the upgraded foundational diffusion model.
PDF281December 15, 2024