Ctrl-Adapter : Un cadre efficace et polyvalent pour l'adaptation de divers contrôles à tout modèle de diffusion
Ctrl-Adapter: An Efficient and Versatile Framework for Adapting Diverse Controls to Any Diffusion Model
April 15, 2024
Auteurs: Han Lin, Jaemin Cho, Abhay Zala, Mohit Bansal
cs.AI
Résumé
Les ControlNets sont largement utilisés pour ajouter un contrôle spatial dans la génération d'images avec différentes conditions, telles que les cartes de profondeur, les contours de Canny et les poses humaines. Cependant, plusieurs défis se posent lors de l'utilisation des ControlNets pré-entraînés pour la génération contrôlée de vidéos. Premièrement, un ControlNet pré-entraîné ne peut pas être directement intégré à de nouveaux modèles de base en raison de l'incompatibilité des espaces de caractéristiques, et le coût de l'entraînement des ControlNets pour de nouveaux modèles de base représente une charge importante. Deuxièmement, les caractéristiques des ControlNets pour différentes images peuvent ne pas gérer efficacement la cohérence temporelle. Pour relever ces défis, nous introduisons Ctrl-Adapter, un cadre efficace et polyvalent qui ajoute divers contrôles à tout modèle de diffusion d'images/vidéos, en adaptant les ControlNets pré-entraînés (et en améliorant l'alignement temporel pour les vidéos). Ctrl-Adapter offre diverses capacités, notamment le contrôle d'images, le contrôle de vidéos, le contrôle de vidéos avec des images clés, le contrôle multi-conditions, la compatibilité avec différents modèles de base, l'adaptation à des conditions de contrôle inédites et l'édition de vidéos. Dans Ctrl-Adapter, nous entraînons des couches d'adaptation qui fusionnent les caractéristiques des ControlNets pré-entraînés avec différents modèles de diffusion d'images/vidéos, tout en gardant les paramètres des ControlNets et des modèles de diffusion figés. Ctrl-Adapter est composé de modules temporels et spatiaux pour gérer efficacement la cohérence temporelle des vidéos. Nous proposons également le saut latent et l'échantillonnage inverse des pas de temps pour une adaptation robuste et un contrôle clairsemé. De plus, Ctrl-Adapter permet un contrôle à partir de multiples conditions en prenant simplement la moyenne (pondérée) des sorties des ControlNets. Avec divers modèles de diffusion d'images/vidéos (SDXL, Hotshot-XL, I2VGen-XL et SVD), Ctrl-Adapter correspond aux performances des ControlNets pour le contrôle d'images et surpasse toutes les méthodes de référence pour le contrôle de vidéos (atteignant la meilleure précision sur le jeu de données DAVIS 2017) avec des coûts de calcul significativement réduits (moins de 10 heures GPU).
English
ControlNets are widely used for adding spatial control in image generation
with different conditions, such as depth maps, canny edges, and human poses.
However, there are several challenges when leveraging the pretrained image
ControlNets for controlled video generation. First, pretrained ControlNet
cannot be directly plugged into new backbone models due to the mismatch of
feature spaces, and the cost of training ControlNets for new backbones is a big
burden. Second, ControlNet features for different frames might not effectively
handle the temporal consistency. To address these challenges, we introduce
Ctrl-Adapter, an efficient and versatile framework that adds diverse controls
to any image/video diffusion models, by adapting pretrained ControlNets (and
improving temporal alignment for videos). Ctrl-Adapter provides diverse
capabilities including image control, video control, video control with sparse
frames, multi-condition control, compatibility with different backbones,
adaptation to unseen control conditions, and video editing. In Ctrl-Adapter, we
train adapter layers that fuse pretrained ControlNet features to different
image/video diffusion models, while keeping the parameters of the ControlNets
and the diffusion models frozen. Ctrl-Adapter consists of temporal and spatial
modules so that it can effectively handle the temporal consistency of videos.
We also propose latent skipping and inverse timestep sampling for robust
adaptation and sparse control. Moreover, Ctrl-Adapter enables control from
multiple conditions by simply taking the (weighted) average of ControlNet
outputs. With diverse image/video diffusion backbones (SDXL, Hotshot-XL,
I2VGen-XL, and SVD), Ctrl-Adapter matches ControlNet for image control and
outperforms all baselines for video control (achieving the SOTA accuracy on the
DAVIS 2017 dataset) with significantly lower computational costs (less than 10
GPU hours).Summary
AI-Generated Summary