Ctrl-Adapter: Een Efficiënt en Veelzijdig Framework voor het Aanpassen van Diverse Controls aan Elk Diffusiemodel
Ctrl-Adapter: An Efficient and Versatile Framework for Adapting Diverse Controls to Any Diffusion Model
April 15, 2024
Auteurs: Han Lin, Jaemin Cho, Abhay Zala, Mohit Bansal
cs.AI
Samenvatting
ControlNets worden veel gebruikt voor het toevoegen van ruimtelijke controle bij beeldgeneratie met verschillende voorwaarden, zoals dieptekaarten, canny edges en menselijke poses. Er zijn echter verschillende uitdagingen bij het benutten van vooraf getrainde ControlNets voor gecontroleerde videogeneratie. Ten eerste kunnen vooraf getrainde ControlNets niet direct worden aangesloten op nieuwe backbone-modellen vanwege de mismatch in kenmerkruimten, en de kosten van het trainen van ControlNets voor nieuwe backbones vormen een grote last. Ten tweede kunnen ControlNet-kenmerken voor verschillende frames mogelijk niet effectief omgaan met temporele consistentie. Om deze uitdagingen aan te pakken, introduceren we Ctrl-Adapter, een efficiënt en veelzijdig framework dat diverse controles toevoegt aan elk beeld/video-diffusiemodel, door vooraf getrainde ControlNets aan te passen (en temporele uitlijning voor video's te verbeteren). Ctrl-Adapter biedt diverse mogelijkheden, waaronder beeldcontrole, videocontrole, videocontrole met verspreide frames, multiconditiecontrole, compatibiliteit met verschillende backbones, aanpassing aan onbekende controlecondities en videobewerking. In Ctrl-Adapter trainen we adapterlagen die vooraf getrainde ControlNet-kenmerken integreren in verschillende beeld/video-diffusiemodellen, terwijl de parameters van de ControlNets en de diffusiemodellen bevroren blijven. Ctrl-Adapter bestaat uit temporele en ruimtelijke modules, zodat het effectief kan omgaan met de temporele consistentie van video's. We stellen ook latent skipping en inverse timestep sampling voor voor robuuste aanpassing en verspreide controle. Bovendien maakt Ctrl-Adapter controle vanuit meerdere condities mogelijk door simpelweg het (gewogen) gemiddelde van ControlNet-uitvoer te nemen. Met diverse beeld/video-diffusiebackbones (SDXL, Hotshot-XL, I2VGen-XL en SVD) evenaart Ctrl-Adapter ControlNet voor beeldcontrole en overtreft het alle baseline-methoden voor videocontrole (waarbij het de SOTA-nauwkeurigheid op de DAVIS 2017-dataset behaalt) met aanzienlijk lagere rekenkosten (minder dan 10 GPU-uren).
English
ControlNets are widely used for adding spatial control in image generation
with different conditions, such as depth maps, canny edges, and human poses.
However, there are several challenges when leveraging the pretrained image
ControlNets for controlled video generation. First, pretrained ControlNet
cannot be directly plugged into new backbone models due to the mismatch of
feature spaces, and the cost of training ControlNets for new backbones is a big
burden. Second, ControlNet features for different frames might not effectively
handle the temporal consistency. To address these challenges, we introduce
Ctrl-Adapter, an efficient and versatile framework that adds diverse controls
to any image/video diffusion models, by adapting pretrained ControlNets (and
improving temporal alignment for videos). Ctrl-Adapter provides diverse
capabilities including image control, video control, video control with sparse
frames, multi-condition control, compatibility with different backbones,
adaptation to unseen control conditions, and video editing. In Ctrl-Adapter, we
train adapter layers that fuse pretrained ControlNet features to different
image/video diffusion models, while keeping the parameters of the ControlNets
and the diffusion models frozen. Ctrl-Adapter consists of temporal and spatial
modules so that it can effectively handle the temporal consistency of videos.
We also propose latent skipping and inverse timestep sampling for robust
adaptation and sparse control. Moreover, Ctrl-Adapter enables control from
multiple conditions by simply taking the (weighted) average of ControlNet
outputs. With diverse image/video diffusion backbones (SDXL, Hotshot-XL,
I2VGen-XL, and SVD), Ctrl-Adapter matches ControlNet for image control and
outperforms all baselines for video control (achieving the SOTA accuracy on the
DAVIS 2017 dataset) with significantly lower computational costs (less than 10
GPU hours).