X-Adapter: アップグレードされた拡散モデル向けプラグインのユニバーサル互換性の追加
X-Adapter: Adding Universal Compatibility of Plugins for Upgraded Diffusion Model
December 4, 2023
著者: Lingmin Ran, Xiaodong Cun, JiaWei Liu, Rui Zhao, Song Zijie, Xintao Wang, Jussi Keppo, Mike Zheng Shou
cs.AI
要旨
X-Adapterを紹介します。これは、事前学習済みのプラグアンドプレイモジュール(例:ControlNet、LoRA)を、追加の再学習なしにアップグレードされたテキストから画像への拡散モデル(例:SDXL)で直接動作させるためのユニバーサルアップグレーダーです。この目標を達成するために、新しいテキストと画像のデータペアを使用して、凍結されたアップグレードモデルを制御する追加のネットワークを訓練します。具体的には、X-Adapterは異なるプラグインのコネクタを保持するために、旧モデルの凍結されたコピーを保持します。さらに、X-Adapterは異なるバージョンのモデル間のデコーダを橋渡しするための訓練可能なマッピング層を追加し、特徴の再マッピングを行います。再マップされた特徴は、アップグレードされたモデルのガイダンスとして使用されます。X-Adapterのガイダンス能力を強化するために、アップグレードされたモデルに対してnull-text訓練戦略を採用します。訓練後、X-Adapterとアップグレードされたモデルの初期潜在変数を整合させるために、2段階のノイズ除去戦略を導入します。これらの戦略のおかげで、X-Adapterはさまざまなプラグインとのユニバーサルな互換性を示し、異なるバージョンのプラグインが一緒に動作することを可能にし、拡散コミュニティの機能性を拡張します。提案手法の有効性を検証するために、広範な実験を行い、その結果、X-Adapterがアップグレードされた基盤拡散モデルでのより広範な応用を促進する可能性があることを示します。
English
We introduce X-Adapter, a universal upgrader to enable the pretrained
plug-and-play modules (e.g., ControlNet, LoRA) to work directly with the
upgraded text-to-image diffusion model (e.g., SDXL) without further retraining.
We achieve this goal by training an additional network to control the frozen
upgraded model with the new text-image data pairs. In detail, X-Adapter keeps a
frozen copy of the old model to preserve the connectors of different plugins.
Additionally, X-Adapter adds trainable mapping layers that bridge the decoders
from models of different versions for feature remapping. The remapped features
will be used as guidance for the upgraded model. To enhance the guidance
ability of X-Adapter, we employ a null-text training strategy for the upgraded
model. After training, we also introduce a two-stage denoising strategy to
align the initial latents of X-Adapter and the upgraded model. Thanks to our
strategies, X-Adapter demonstrates universal compatibility with various plugins
and also enables plugins of different versions to work together, thereby
expanding the functionalities of diffusion community. To verify the
effectiveness of the proposed method, we conduct extensive experiments and the
results show that X-Adapter may facilitate wider application in the upgraded
foundational diffusion model.