Ctrl-Adapter: Un Framework Efficiente e Versatile per Adattare Diversi Controlli a Qualsiasi Modello di Diffusione
Ctrl-Adapter: An Efficient and Versatile Framework for Adapting Diverse Controls to Any Diffusion Model
April 15, 2024
Autori: Han Lin, Jaemin Cho, Abhay Zala, Mohit Bansal
cs.AI
Abstract
I ControlNet sono ampiamente utilizzati per aggiungere controllo spaziale nella generazione di immagini con diverse condizioni, come mappe di profondità, bordi canny e pose umane. Tuttavia, ci sono diverse sfide quando si sfruttano i ControlNet pre-addestrati per la generazione controllata di video. In primo luogo, i ControlNet pre-addestrati non possono essere direttamente integrati in nuovi modelli backbone a causa della mancata corrispondenza degli spazi delle feature, e il costo di addestramento dei ControlNet per nuovi backbone rappresenta un onere significativo. In secondo luogo, le feature dei ControlNet per frame diversi potrebbero non gestire efficacemente la coerenza temporale. Per affrontare queste sfide, introduciamo Ctrl-Adapter, un framework efficiente e versatile che aggiunge controlli diversificati a qualsiasi modello di diffusione di immagini/video, adattando i ControlNet pre-addestrati (e migliorando l'allineamento temporale per i video). Ctrl-Adapter offre diverse capacità, tra cui controllo delle immagini, controllo dei video, controllo dei video con frame sparsi, controllo multi-condizione, compatibilità con diversi backbone, adattamento a condizioni di controllo non viste e editing video. In Ctrl-Adapter, addestriamo strati di adattamento che fondono le feature dei ControlNet pre-addestrati a diversi modelli di diffusione di immagini/video, mantenendo congelati i parametri dei ControlNet e dei modelli di diffusione. Ctrl-Adapter è composto da moduli temporali e spaziali in modo da gestire efficacemente la coerenza temporale dei video. Proponiamo inoltre il salto latente e il campionamento inverso dei timestep per un adattamento robusto e un controllo sparso. Inoltre, Ctrl-Adapter consente il controllo da più condizioni semplicemente prendendo la media (ponderata) delle uscite dei ControlNet. Con diversi backbone di diffusione di immagini/video (SDXL, Hotshot-XL, I2VGen-XL e SVD), Ctrl-Adapter eguaglia i ControlNet per il controllo delle immagini e supera tutte le baseline per il controllo dei video (raggiungendo l'accuratezza SOTA sul dataset DAVIS 2017) con costi computazionali significativamente inferiori (meno di 10 ore GPU).
English
ControlNets are widely used for adding spatial control in image generation
with different conditions, such as depth maps, canny edges, and human poses.
However, there are several challenges when leveraging the pretrained image
ControlNets for controlled video generation. First, pretrained ControlNet
cannot be directly plugged into new backbone models due to the mismatch of
feature spaces, and the cost of training ControlNets for new backbones is a big
burden. Second, ControlNet features for different frames might not effectively
handle the temporal consistency. To address these challenges, we introduce
Ctrl-Adapter, an efficient and versatile framework that adds diverse controls
to any image/video diffusion models, by adapting pretrained ControlNets (and
improving temporal alignment for videos). Ctrl-Adapter provides diverse
capabilities including image control, video control, video control with sparse
frames, multi-condition control, compatibility with different backbones,
adaptation to unseen control conditions, and video editing. In Ctrl-Adapter, we
train adapter layers that fuse pretrained ControlNet features to different
image/video diffusion models, while keeping the parameters of the ControlNets
and the diffusion models frozen. Ctrl-Adapter consists of temporal and spatial
modules so that it can effectively handle the temporal consistency of videos.
We also propose latent skipping and inverse timestep sampling for robust
adaptation and sparse control. Moreover, Ctrl-Adapter enables control from
multiple conditions by simply taking the (weighted) average of ControlNet
outputs. With diverse image/video diffusion backbones (SDXL, Hotshot-XL,
I2VGen-XL, and SVD), Ctrl-Adapter matches ControlNet for image control and
outperforms all baselines for video control (achieving the SOTA accuracy on the
DAVIS 2017 dataset) with significantly lower computational costs (less than 10
GPU hours).