ChatPaper.aiChatPaper

X-Adapter: Обеспечение универсальной совместимости плагинов для усовершенствованных моделей диффузии

X-Adapter: Adding Universal Compatibility of Plugins for Upgraded Diffusion Model

December 4, 2023
Авторы: Lingmin Ran, Xiaodong Cun, JiaWei Liu, Rui Zhao, Song Zijie, Xintao Wang, Jussi Keppo, Mike Zheng Shou
cs.AI

Аннотация

Мы представляем X-Adapter — универсальный апгрейдер, который позволяет предварительно обученным модулям plug-and-play (например, ControlNet, LoRA) работать напрямую с обновленной моделью генерации изображений из текста (например, SDXL) без дополнительного переобучения. Мы достигаем этой цели, обучая дополнительную сеть для управления замороженной обновленной моделью с использованием новых пар текст-изображение. В частности, X-Adapter сохраняет замороженную копию старой модели, чтобы сохранить соединения различных плагинов. Кроме того, X-Adapter добавляет обучаемые слои отображения, которые связывают декодеры моделей разных версий для пересопоставления признаков. Пересопоставленные признаки будут использоваться в качестве руководства для обновленной модели. Для повышения способности X-Adapter к управлению мы применяем стратегию обучения с нулевым текстом для обновленной модели. После обучения мы также вводим двухэтапную стратегию шумоподавления для согласования начальных латентных переменных X-Adapter и обновленной модели. Благодаря нашим стратегиям, X-Adapter демонстрирует универсальную совместимость с различными плагинами, а также позволяет плагинам разных версий работать вместе, расширяя функциональность сообщества диффузионных моделей. Для проверки эффективности предложенного метода мы проводим обширные эксперименты, и результаты показывают, что X-Adapter может способствовать более широкому применению в обновленной базовой диффузионной модели.
English
We introduce X-Adapter, a universal upgrader to enable the pretrained plug-and-play modules (e.g., ControlNet, LoRA) to work directly with the upgraded text-to-image diffusion model (e.g., SDXL) without further retraining. We achieve this goal by training an additional network to control the frozen upgraded model with the new text-image data pairs. In detail, X-Adapter keeps a frozen copy of the old model to preserve the connectors of different plugins. Additionally, X-Adapter adds trainable mapping layers that bridge the decoders from models of different versions for feature remapping. The remapped features will be used as guidance for the upgraded model. To enhance the guidance ability of X-Adapter, we employ a null-text training strategy for the upgraded model. After training, we also introduce a two-stage denoising strategy to align the initial latents of X-Adapter and the upgraded model. Thanks to our strategies, X-Adapter demonstrates universal compatibility with various plugins and also enables plugins of different versions to work together, thereby expanding the functionalities of diffusion community. To verify the effectiveness of the proposed method, we conduct extensive experiments and the results show that X-Adapter may facilitate wider application in the upgraded foundational diffusion model.
PDF281December 15, 2024