ChatPaper.aiChatPaper

X-Adapter: Aggiunta della Compatibilità Universale dei Plugin per Modelli di Diffusione Aggiornati

X-Adapter: Adding Universal Compatibility of Plugins for Upgraded Diffusion Model

December 4, 2023
Autori: Lingmin Ran, Xiaodong Cun, JiaWei Liu, Rui Zhao, Song Zijie, Xintao Wang, Jussi Keppo, Mike Zheng Shou
cs.AI

Abstract

Introduciamo X-Adapter, un aggiornatore universale che consente ai moduli plug-and-play pre-addestrati (ad esempio, ControlNet, LoRA) di funzionare direttamente con il modello di diffusione testo-immagine aggiornato (ad esempio, SDXL) senza ulteriore riaddestramento. Raggiungiamo questo obiettivo addestrando una rete aggiuntiva per controllare il modello aggiornato congelato utilizzando nuove coppie di dati testo-immagine. Nel dettaglio, X-Adapter mantiene una copia congelata del vecchio modello per preservare i connettori dei diversi plugin. Inoltre, X-Adapter aggiunge strati di mappatura addestrabili che collegano i decoder di modelli di versioni diverse per il rimappaggio delle feature. Le feature rimappate verranno utilizzate come guida per il modello aggiornato. Per migliorare la capacità di guida di X-Adapter, adottiamo una strategia di addestramento con testo nullo per il modello aggiornato. Dopo l'addestramento, introduciamo anche una strategia di denoising a due fasi per allineare i latenti iniziali di X-Adapter e del modello aggiornato. Grazie alle nostre strategie, X-Adapter dimostra una compatibilità universale con vari plugin e consente anche ai plugin di versioni diverse di lavorare insieme, ampliando così le funzionalità della comunità di diffusione. Per verificare l'efficacia del metodo proposto, conduciamo ampi esperimenti e i risultati mostrano che X-Adapter può facilitare un'applicazione più ampia nel modello di diffusione fondamentale aggiornato.
English
We introduce X-Adapter, a universal upgrader to enable the pretrained plug-and-play modules (e.g., ControlNet, LoRA) to work directly with the upgraded text-to-image diffusion model (e.g., SDXL) without further retraining. We achieve this goal by training an additional network to control the frozen upgraded model with the new text-image data pairs. In detail, X-Adapter keeps a frozen copy of the old model to preserve the connectors of different plugins. Additionally, X-Adapter adds trainable mapping layers that bridge the decoders from models of different versions for feature remapping. The remapped features will be used as guidance for the upgraded model. To enhance the guidance ability of X-Adapter, we employ a null-text training strategy for the upgraded model. After training, we also introduce a two-stage denoising strategy to align the initial latents of X-Adapter and the upgraded model. Thanks to our strategies, X-Adapter demonstrates universal compatibility with various plugins and also enables plugins of different versions to work together, thereby expanding the functionalities of diffusion community. To verify the effectiveness of the proposed method, we conduct extensive experiments and the results show that X-Adapter may facilitate wider application in the upgraded foundational diffusion model.
PDF281December 15, 2024