X-Adapter: Añadiendo Compatibilidad Universal de Plugins para Modelos de Difusión Actualizados
X-Adapter: Adding Universal Compatibility of Plugins for Upgraded Diffusion Model
December 4, 2023
Autores: Lingmin Ran, Xiaodong Cun, JiaWei Liu, Rui Zhao, Song Zijie, Xintao Wang, Jussi Keppo, Mike Zheng Shou
cs.AI
Resumen
Presentamos X-Adapter, un actualizador universal que permite que los módulos preentrenados plug-and-play (por ejemplo, ControlNet, LoRA) funcionen directamente con el modelo de difusión texto-imagen actualizado (por ejemplo, SDXL) sin necesidad de un reentrenamiento adicional. Logramos este objetivo entrenando una red adicional para controlar el modelo actualizado congelado utilizando nuevos pares de datos texto-imagen. En detalle, X-Adapter mantiene una copia congelada del modelo antiguo para preservar los conectores de los diferentes plugins. Además, X-Adapter añade capas de mapeo entrenables que conectan los decodificadores de modelos de diferentes versiones para el remapeo de características. Las características remapeadas se utilizarán como guía para el modelo actualizado. Para mejorar la capacidad de guía de X-Adapter, empleamos una estrategia de entrenamiento con texto nulo para el modelo actualizado. Después del entrenamiento, también introducimos una estrategia de eliminación de ruido en dos etapas para alinear los latentes iniciales de X-Adapter y el modelo actualizado. Gracias a nuestras estrategias, X-Adapter demuestra compatibilidad universal con varios plugins y también permite que plugins de diferentes versiones trabajen juntos, expandiendo así las funcionalidades de la comunidad de difusión. Para verificar la efectividad del método propuesto, realizamos extensos experimentos y los resultados muestran que X-Adapter puede facilitar una aplicación más amplia en el modelo de difusión fundamental actualizado.
English
We introduce X-Adapter, a universal upgrader to enable the pretrained
plug-and-play modules (e.g., ControlNet, LoRA) to work directly with the
upgraded text-to-image diffusion model (e.g., SDXL) without further retraining.
We achieve this goal by training an additional network to control the frozen
upgraded model with the new text-image data pairs. In detail, X-Adapter keeps a
frozen copy of the old model to preserve the connectors of different plugins.
Additionally, X-Adapter adds trainable mapping layers that bridge the decoders
from models of different versions for feature remapping. The remapped features
will be used as guidance for the upgraded model. To enhance the guidance
ability of X-Adapter, we employ a null-text training strategy for the upgraded
model. After training, we also introduce a two-stage denoising strategy to
align the initial latents of X-Adapter and the upgraded model. Thanks to our
strategies, X-Adapter demonstrates universal compatibility with various plugins
and also enables plugins of different versions to work together, thereby
expanding the functionalities of diffusion community. To verify the
effectiveness of the proposed method, we conduct extensive experiments and the
results show that X-Adapter may facilitate wider application in the upgraded
foundational diffusion model.