Ctrl-Adapter: Un Marco Eficiente y Versátil para Adaptar Diversos Controles a Cualquier Modelo de Difusión
Ctrl-Adapter: An Efficient and Versatile Framework for Adapting Diverse Controls to Any Diffusion Model
April 15, 2024
Autores: Han Lin, Jaemin Cho, Abhay Zala, Mohit Bansal
cs.AI
Resumen
Los ControlNets son ampliamente utilizados para agregar control espacial en la generación de imágenes con diferentes condiciones, como mapas de profundidad, bordes canny y poses humanas. Sin embargo, existen varios desafíos al aprovechar los ControlNets preentrenados para la generación controlada de videos. Primero, el ControlNet preentrenado no puede integrarse directamente en nuevos modelos backbone debido a la incompatibilidad de los espacios de características, y el costo de entrenar ControlNets para nuevos backbones representa una gran carga. Segundo, las características del ControlNet para diferentes fotogramas podrían no manejar eficazmente la consistencia temporal. Para abordar estos desafíos, presentamos Ctrl-Adapter, un marco eficiente y versátil que agrega diversos controles a cualquier modelo de difusión de imágenes/videos, adaptando ControlNets preentrenados (y mejorando la alineación temporal para videos). Ctrl-Adapter ofrece diversas capacidades, incluyendo control de imágenes, control de videos, control de videos con fotogramas dispersos, control multi-condición, compatibilidad con diferentes backbones, adaptación a condiciones de control no vistas y edición de videos. En Ctrl-Adapter, entrenamos capas adaptadoras que fusionan las características de los ControlNets preentrenados con diferentes modelos de difusión de imágenes/videos, manteniendo congelados los parámetros de los ControlNets y los modelos de difusión. Ctrl-Adapter consta de módulos temporales y espaciales para manejar eficazmente la consistencia temporal de los videos. También proponemos el salto latente y el muestreo inverso de pasos de tiempo para una adaptación robusta y control disperso. Además, Ctrl-Adapter permite el control desde múltiples condiciones simplemente tomando el promedio (ponderado) de las salidas del ControlNet. Con diversos backbones de difusión de imágenes/videos (SDXL, Hotshot-XL, I2VGen-XL y SVD), Ctrl-Adapter iguala al ControlNet en el control de imágenes y supera a todas las líneas base en el control de videos (logrando la precisión SOTA en el conjunto de datos DAVIS 2017) con costos computacionales significativamente menores (menos de 10 horas de GPU).
English
ControlNets are widely used for adding spatial control in image generation
with different conditions, such as depth maps, canny edges, and human poses.
However, there are several challenges when leveraging the pretrained image
ControlNets for controlled video generation. First, pretrained ControlNet
cannot be directly plugged into new backbone models due to the mismatch of
feature spaces, and the cost of training ControlNets for new backbones is a big
burden. Second, ControlNet features for different frames might not effectively
handle the temporal consistency. To address these challenges, we introduce
Ctrl-Adapter, an efficient and versatile framework that adds diverse controls
to any image/video diffusion models, by adapting pretrained ControlNets (and
improving temporal alignment for videos). Ctrl-Adapter provides diverse
capabilities including image control, video control, video control with sparse
frames, multi-condition control, compatibility with different backbones,
adaptation to unseen control conditions, and video editing. In Ctrl-Adapter, we
train adapter layers that fuse pretrained ControlNet features to different
image/video diffusion models, while keeping the parameters of the ControlNets
and the diffusion models frozen. Ctrl-Adapter consists of temporal and spatial
modules so that it can effectively handle the temporal consistency of videos.
We also propose latent skipping and inverse timestep sampling for robust
adaptation and sparse control. Moreover, Ctrl-Adapter enables control from
multiple conditions by simply taking the (weighted) average of ControlNet
outputs. With diverse image/video diffusion backbones (SDXL, Hotshot-XL,
I2VGen-XL, and SVD), Ctrl-Adapter matches ControlNet for image control and
outperforms all baselines for video control (achieving the SOTA accuracy on the
DAVIS 2017 dataset) with significantly lower computational costs (less than 10
GPU hours).Summary
AI-Generated Summary