Ctrl-Adapter: Un Marco Eficiente y Versátil para Adaptar Diversos Controles a Cualquier Modelo de Difusión

Resumen

Los ControlNets son ampliamente utilizados para agregar control espacial en la generación de imágenes con diferentes condiciones, como mapas de profundidad, bordes canny y poses humanas. Sin embargo, existen varios desafíos al aprovechar los ControlNets preentrenados para la generación controlada de videos. Primero, el ControlNet preentrenado no puede integrarse directamente en nuevos modelos backbone debido a la incompatibilidad de los espacios de características, y el costo de entrenar ControlNets para nuevos backbones representa una gran carga. Segundo, las características del ControlNet para diferentes fotogramas podrían no manejar eficazmente la consistencia temporal. Para abordar estos desafíos, presentamos Ctrl-Adapter, un marco eficiente y versátil que agrega diversos controles a cualquier modelo de difusión de imágenes/videos, adaptando ControlNets preentrenados (y mejorando la alineación temporal para videos). Ctrl-Adapter ofrece diversas capacidades, incluyendo control de imágenes, control de videos, control de videos con fotogramas dispersos, control multi-condición, compatibilidad con diferentes backbones, adaptación a condiciones de control no vistas y edición de videos. En Ctrl-Adapter, entrenamos capas adaptadoras que fusionan las características de los ControlNets preentrenados con diferentes modelos de difusión de imágenes/videos, manteniendo congelados los parámetros de los ControlNets y los modelos de difusión. Ctrl-Adapter consta de módulos temporales y espaciales para manejar eficazmente la consistencia temporal de los videos. También proponemos el salto latente y el muestreo inverso de pasos de tiempo para una adaptación robusta y control disperso. Además, Ctrl-Adapter permite el control desde múltiples condiciones simplemente tomando el promedio (ponderado) de las salidas del ControlNet. Con diversos backbones de difusión de imágenes/videos (SDXL, Hotshot-XL, I2VGen-XL y SVD), Ctrl-Adapter iguala al ControlNet en el control de imágenes y supera a todas las líneas base en el control de videos (logrando la precisión SOTA en el conjunto de datos DAVIS 2017) con costos computacionales significativamente menores (menos de 10 horas de GPU).

English

ControlNets are widely used for adding spatial control in image generation with different conditions, such as depth maps, canny edges, and human poses. However, there are several challenges when leveraging the pretrained image ControlNets for controlled video generation. First, pretrained ControlNet cannot be directly plugged into new backbone models due to the mismatch of feature spaces, and the cost of training ControlNets for new backbones is a big burden. Second, ControlNet features for different frames might not effectively handle the temporal consistency. To address these challenges, we introduce Ctrl-Adapter, an efficient and versatile framework that adds diverse controls to any image/video diffusion models, by adapting pretrained ControlNets (and improving temporal alignment for videos). Ctrl-Adapter provides diverse capabilities including image control, video control, video control with sparse frames, multi-condition control, compatibility with different backbones, adaptation to unseen control conditions, and video editing. In Ctrl-Adapter, we train adapter layers that fuse pretrained ControlNet features to different image/video diffusion models, while keeping the parameters of the ControlNets and the diffusion models frozen. Ctrl-Adapter consists of temporal and spatial modules so that it can effectively handle the temporal consistency of videos. We also propose latent skipping and inverse timestep sampling for robust adaptation and sparse control. Moreover, Ctrl-Adapter enables control from multiple conditions by simply taking the (weighted) average of ControlNet outputs. With diverse image/video diffusion backbones (SDXL, Hotshot-XL, I2VGen-XL, and SVD), Ctrl-Adapter matches ControlNet for image control and outperforms all baselines for video control (achieving the SOTA accuracy on the DAVIS 2017 dataset) with significantly lower computational costs (less than 10 GPU hours).

Ctrl-Adapter: Un Marco Eficiente y Versátil para Adaptar Diversos Controles a Cualquier Modelo de Difusión

Ctrl-Adapter: An Efficient and Versatile Framework for Adapting Diverse Controls to Any Diffusion Model

Resumen

Support