ChatPaper.aiChatPaper

Ctrl-Adapter : Un cadre efficace et polyvalent pour l'adaptation de divers contrôles à tout modèle de diffusion

Ctrl-Adapter: An Efficient and Versatile Framework for Adapting Diverse Controls to Any Diffusion Model

April 15, 2024
Auteurs: Han Lin, Jaemin Cho, Abhay Zala, Mohit Bansal
cs.AI

Résumé

Les ControlNets sont largement utilisés pour ajouter un contrôle spatial dans la génération d'images avec différentes conditions, telles que les cartes de profondeur, les contours de Canny et les poses humaines. Cependant, plusieurs défis se posent lors de l'utilisation des ControlNets pré-entraînés pour la génération contrôlée de vidéos. Premièrement, un ControlNet pré-entraîné ne peut pas être directement intégré à de nouveaux modèles de base en raison de l'incompatibilité des espaces de caractéristiques, et le coût de l'entraînement des ControlNets pour de nouveaux modèles de base représente une charge importante. Deuxièmement, les caractéristiques des ControlNets pour différentes images peuvent ne pas gérer efficacement la cohérence temporelle. Pour relever ces défis, nous introduisons Ctrl-Adapter, un cadre efficace et polyvalent qui ajoute divers contrôles à tout modèle de diffusion d'images/vidéos, en adaptant les ControlNets pré-entraînés (et en améliorant l'alignement temporel pour les vidéos). Ctrl-Adapter offre diverses capacités, notamment le contrôle d'images, le contrôle de vidéos, le contrôle de vidéos avec des images clés, le contrôle multi-conditions, la compatibilité avec différents modèles de base, l'adaptation à des conditions de contrôle inédites et l'édition de vidéos. Dans Ctrl-Adapter, nous entraînons des couches d'adaptation qui fusionnent les caractéristiques des ControlNets pré-entraînés avec différents modèles de diffusion d'images/vidéos, tout en gardant les paramètres des ControlNets et des modèles de diffusion figés. Ctrl-Adapter est composé de modules temporels et spatiaux pour gérer efficacement la cohérence temporelle des vidéos. Nous proposons également le saut latent et l'échantillonnage inverse des pas de temps pour une adaptation robuste et un contrôle clairsemé. De plus, Ctrl-Adapter permet un contrôle à partir de multiples conditions en prenant simplement la moyenne (pondérée) des sorties des ControlNets. Avec divers modèles de diffusion d'images/vidéos (SDXL, Hotshot-XL, I2VGen-XL et SVD), Ctrl-Adapter correspond aux performances des ControlNets pour le contrôle d'images et surpasse toutes les méthodes de référence pour le contrôle de vidéos (atteignant la meilleure précision sur le jeu de données DAVIS 2017) avec des coûts de calcul significativement réduits (moins de 10 heures GPU).
English
ControlNets are widely used for adding spatial control in image generation with different conditions, such as depth maps, canny edges, and human poses. However, there are several challenges when leveraging the pretrained image ControlNets for controlled video generation. First, pretrained ControlNet cannot be directly plugged into new backbone models due to the mismatch of feature spaces, and the cost of training ControlNets for new backbones is a big burden. Second, ControlNet features for different frames might not effectively handle the temporal consistency. To address these challenges, we introduce Ctrl-Adapter, an efficient and versatile framework that adds diverse controls to any image/video diffusion models, by adapting pretrained ControlNets (and improving temporal alignment for videos). Ctrl-Adapter provides diverse capabilities including image control, video control, video control with sparse frames, multi-condition control, compatibility with different backbones, adaptation to unseen control conditions, and video editing. In Ctrl-Adapter, we train adapter layers that fuse pretrained ControlNet features to different image/video diffusion models, while keeping the parameters of the ControlNets and the diffusion models frozen. Ctrl-Adapter consists of temporal and spatial modules so that it can effectively handle the temporal consistency of videos. We also propose latent skipping and inverse timestep sampling for robust adaptation and sparse control. Moreover, Ctrl-Adapter enables control from multiple conditions by simply taking the (weighted) average of ControlNet outputs. With diverse image/video diffusion backbones (SDXL, Hotshot-XL, I2VGen-XL, and SVD), Ctrl-Adapter matches ControlNet for image control and outperforms all baselines for video control (achieving the SOTA accuracy on the DAVIS 2017 dataset) with significantly lower computational costs (less than 10 GPU hours).

Summary

AI-Generated Summary

PDF220December 15, 2024