Ctrl-Adapter: Um Framework Eficiente e Versátil para Adaptar Diversos Controles a Qualquer Modelo de Difusão
Ctrl-Adapter: An Efficient and Versatile Framework for Adapting Diverse Controls to Any Diffusion Model
April 15, 2024
Autores: Han Lin, Jaemin Cho, Abhay Zala, Mohit Bansal
cs.AI
Resumo
Os ControlNets são amplamente utilizados para adicionar controle espacial na geração de imagens com diferentes condições, como mapas de profundidade, bordas canny e poses humanas. No entanto, existem vários desafios ao aproveitar os ControlNets pré-treinados para geração controlada de vídeos. Primeiro, o ControlNet pré-treinado não pode ser diretamente integrado a novos modelos de backbone devido à incompatibilidade de espaços de características, e o custo de treinar ControlNets para novos backbones é um grande fardo. Segundo, as características do ControlNet para diferentes quadros podem não lidar efetivamente com a consistência temporal. Para abordar esses desafios, introduzimos o Ctrl-Adapter, uma estrutura eficiente e versátil que adiciona diversos controles a qualquer modelo de difusão de imagem/vídeo, adaptando ControlNets pré-treinados (e melhorando o alinhamento temporal para vídeos). O Ctrl-Adapter oferece diversas capacidades, incluindo controle de imagem, controle de vídeo, controle de vídeo com quadros esparsos, controle multi-condição, compatibilidade com diferentes backbones, adaptação a condições de controle não vistas e edição de vídeo. No Ctrl-Adapter, treinamos camadas de adaptação que fundem características de ControlNets pré-treinados a diferentes modelos de difusão de imagem/vídeo, mantendo os parâmetros dos ControlNets e dos modelos de difusão congelados. O Ctrl-Adapter consiste em módulos temporais e espaciais para que possa lidar efetivamente com a consistência temporal dos vídeos. Também propomos o salto latente e a amostragem inversa de timesteps para adaptação robusta e controle esparso. Além disso, o Ctrl-Adapter permite o controle a partir de múltiplas condições simplesmente tomando a média (ponderada) das saídas do ControlNet. Com diversos backbones de difusão de imagem/vídeo (SDXL, Hotshot-XL, I2VGen-XL e SVD), o Ctrl-Adapter iguala o ControlNet para controle de imagem e supera todas as baselines para controle de vídeo (alcançando a precisão SOTA no conjunto de dados DAVIS 2017) com custos computacionais significativamente menores (menos de 10 horas de GPU).
English
ControlNets are widely used for adding spatial control in image generation
with different conditions, such as depth maps, canny edges, and human poses.
However, there are several challenges when leveraging the pretrained image
ControlNets for controlled video generation. First, pretrained ControlNet
cannot be directly plugged into new backbone models due to the mismatch of
feature spaces, and the cost of training ControlNets for new backbones is a big
burden. Second, ControlNet features for different frames might not effectively
handle the temporal consistency. To address these challenges, we introduce
Ctrl-Adapter, an efficient and versatile framework that adds diverse controls
to any image/video diffusion models, by adapting pretrained ControlNets (and
improving temporal alignment for videos). Ctrl-Adapter provides diverse
capabilities including image control, video control, video control with sparse
frames, multi-condition control, compatibility with different backbones,
adaptation to unseen control conditions, and video editing. In Ctrl-Adapter, we
train adapter layers that fuse pretrained ControlNet features to different
image/video diffusion models, while keeping the parameters of the ControlNets
and the diffusion models frozen. Ctrl-Adapter consists of temporal and spatial
modules so that it can effectively handle the temporal consistency of videos.
We also propose latent skipping and inverse timestep sampling for robust
adaptation and sparse control. Moreover, Ctrl-Adapter enables control from
multiple conditions by simply taking the (weighted) average of ControlNet
outputs. With diverse image/video diffusion backbones (SDXL, Hotshot-XL,
I2VGen-XL, and SVD), Ctrl-Adapter matches ControlNet for image control and
outperforms all baselines for video control (achieving the SOTA accuracy on the
DAVIS 2017 dataset) with significantly lower computational costs (less than 10
GPU hours).