Ctrl-Adapter: 多様な制御を任意の拡散モデルに適応させるための効率的で汎用的なフレームワーク
Ctrl-Adapter: An Efficient and Versatile Framework for Adapting Diverse Controls to Any Diffusion Model
April 15, 2024
著者: Han Lin, Jaemin Cho, Abhay Zala, Mohit Bansal
cs.AI
要旨
ControlNetは、深度マップ、キャニーエッジ、人間のポーズなど、さまざまな条件を用いて画像生成に空間的制御を加えるために広く使用されています。しかし、事前学習済みの画像用ControlNetを制御された動画生成に活用する際にはいくつかの課題があります。第一に、事前学習済みのControlNetは、特徴空間の不一致により新しいバックボーンモデルに直接組み込むことができず、新しいバックボーンのためのControlNetの学習コストが大きな負担となります。第二に、異なるフレームに対するControlNetの特徴は、時間的な一貫性を効果的に扱えない可能性があります。これらの課題に対処するため、我々はCtrl-Adapterを提案します。これは、事前学習済みのControlNetを適応させ(動画の時間的整合性を向上させ)、任意の画像/動画拡散モデルに多様な制御を追加する効率的で汎用的なフレームワークです。Ctrl-Adapterは、画像制御、動画制御、スパースフレームを用いた動画制御、複数条件の制御、異なるバックボーンとの互換性、未見の制御条件への適応、動画編集といった多様な機能を提供します。Ctrl-Adapterでは、ControlNetと拡散モデルのパラメータを固定したまま、事前学習済みのControlNetの特徴を異なる画像/動画拡散モデルに融合するアダプタ層を学習します。Ctrl-Adapterは時間的モジュールと空間的モジュールで構成されており、動画の時間的整合性を効果的に扱うことができます。また、ロバストな適応とスパース制御のため、潜在スキップと逆タイムステップサンプリングを提案します。さらに、Ctrl-Adapterは、複数の条件からの制御を、ControlNetの出力の(重み付き)平均を取るだけで実現します。多様な画像/動画拡散バックボーン(SDXL、Hotshot-XL、I2VGen-XL、SVD)を用いて、Ctrl-Adapterは画像制御においてControlNetと同等の性能を発揮し、動画制御においてはすべてのベースラインを上回り(DAVIS 2017データセットでSOTA精度を達成)、大幅に低い計算コスト(10 GPU時間未満)で実現します。
English
ControlNets are widely used for adding spatial control in image generation
with different conditions, such as depth maps, canny edges, and human poses.
However, there are several challenges when leveraging the pretrained image
ControlNets for controlled video generation. First, pretrained ControlNet
cannot be directly plugged into new backbone models due to the mismatch of
feature spaces, and the cost of training ControlNets for new backbones is a big
burden. Second, ControlNet features for different frames might not effectively
handle the temporal consistency. To address these challenges, we introduce
Ctrl-Adapter, an efficient and versatile framework that adds diverse controls
to any image/video diffusion models, by adapting pretrained ControlNets (and
improving temporal alignment for videos). Ctrl-Adapter provides diverse
capabilities including image control, video control, video control with sparse
frames, multi-condition control, compatibility with different backbones,
adaptation to unseen control conditions, and video editing. In Ctrl-Adapter, we
train adapter layers that fuse pretrained ControlNet features to different
image/video diffusion models, while keeping the parameters of the ControlNets
and the diffusion models frozen. Ctrl-Adapter consists of temporal and spatial
modules so that it can effectively handle the temporal consistency of videos.
We also propose latent skipping and inverse timestep sampling for robust
adaptation and sparse control. Moreover, Ctrl-Adapter enables control from
multiple conditions by simply taking the (weighted) average of ControlNet
outputs. With diverse image/video diffusion backbones (SDXL, Hotshot-XL,
I2VGen-XL, and SVD), Ctrl-Adapter matches ControlNet for image control and
outperforms all baselines for video control (achieving the SOTA accuracy on the
DAVIS 2017 dataset) with significantly lower computational costs (less than 10
GPU hours).Summary
AI-Generated Summary