ChatPaper.aiChatPaper

X-Adapter: Adicionando Compatibilidade Universal de Plugins para Modelos de Difusão Atualizados

X-Adapter: Adding Universal Compatibility of Plugins for Upgraded Diffusion Model

December 4, 2023
Autores: Lingmin Ran, Xiaodong Cun, JiaWei Liu, Rui Zhao, Song Zijie, Xintao Wang, Jussi Keppo, Mike Zheng Shou
cs.AI

Resumo

Apresentamos o X-Adapter, um atualizador universal que permite que os módulos pré-treinados plug-and-play (por exemplo, ControlNet, LoRA) funcionem diretamente com o modelo de difusão texto-para-imagem atualizado (por exemplo, SDXL) sem a necessidade de retreinamento adicional. Alcançamos esse objetivo treinando uma rede adicional para controlar o modelo atualizado congelado com novos pares de dados texto-imagem. Em detalhes, o X-Adapter mantém uma cópia congelada do modelo antigo para preservar os conectores de diferentes plugins. Além disso, o X-Adapter adiciona camadas de mapeamento treináveis que conectam os decodificadores de modelos de diferentes versões para o remapeamento de características. As características remapeadas serão usadas como orientação para o modelo atualizado. Para aprimorar a capacidade de orientação do X-Adapter, empregamos uma estratégia de treinamento com texto nulo para o modelo atualizado. Após o treinamento, também introduzimos uma estratégia de eliminação de ruído em duas etapas para alinhar os latentes iniciais do X-Adapter e do modelo atualizado. Graças às nossas estratégias, o X-Adapter demonstra compatibilidade universal com vários plugins e também permite que plugins de diferentes versões trabalhem juntos, expandindo assim as funcionalidades da comunidade de difusão. Para verificar a eficácia do método proposto, realizamos extensos experimentos, e os resultados mostram que o X-Adapter pode facilitar uma aplicação mais ampla no modelo de difusão fundamental atualizado.
English
We introduce X-Adapter, a universal upgrader to enable the pretrained plug-and-play modules (e.g., ControlNet, LoRA) to work directly with the upgraded text-to-image diffusion model (e.g., SDXL) without further retraining. We achieve this goal by training an additional network to control the frozen upgraded model with the new text-image data pairs. In detail, X-Adapter keeps a frozen copy of the old model to preserve the connectors of different plugins. Additionally, X-Adapter adds trainable mapping layers that bridge the decoders from models of different versions for feature remapping. The remapped features will be used as guidance for the upgraded model. To enhance the guidance ability of X-Adapter, we employ a null-text training strategy for the upgraded model. After training, we also introduce a two-stage denoising strategy to align the initial latents of X-Adapter and the upgraded model. Thanks to our strategies, X-Adapter demonstrates universal compatibility with various plugins and also enables plugins of different versions to work together, thereby expanding the functionalities of diffusion community. To verify the effectiveness of the proposed method, we conduct extensive experiments and the results show that X-Adapter may facilitate wider application in the upgraded foundational diffusion model.
PDF281December 15, 2024