Ctrl-Adapter: Эффективная и универсальная платформа для адаптации разнообразных управляющих сигналов к любой модели диффузии.
Ctrl-Adapter: An Efficient and Versatile Framework for Adapting Diverse Controls to Any Diffusion Model
April 15, 2024
Авторы: Han Lin, Jaemin Cho, Abhay Zala, Mohit Bansal
cs.AI
Аннотация
ControlNets широко используются для добавления пространственного контроля в генерации изображений с различными условиями, такими как карты глубины, края Канни и позы человека. Однако существует несколько проблем при использовании предварительно обученных изображений ControlNets для управляемой генерации видео. Во-первых, предварительно обученную ControlNet нельзя напрямую подключить к новым основным моделям из-за несоответствия пространств признаков, и стоимость обучения ControlNets для новых основных моделей является большим бременем. Во-вторых, признаки ControlNet для разных кадров могут неэффективно обрабатывать временную согласованность. Для решения этих проблем мы представляем Ctrl-Adapter, эффективную и универсальную структуру, которая добавляет разнообразные контроли к любым моделям диффузии изображений/видео, адаптируя предварительно обученные ControlNets (и улучшая временное выравнивание для видео). Ctrl-Adapter обеспечивает разнообразные возможности, включая управление изображениями, управление видео, управление видео с разреженными кадрами, управление множественными условиями, совместимость с различными основами, адаптацию к невидимым условиям управления и редактирование видео. В Ctrl-Adapter мы обучаем адаптерные слои, которые объединяют признаки предварительно обученных ControlNet с различными моделями диффузии изображений/видео, сохраняя параметры ControlNets и моделей диффузии замороженными. Ctrl-Adapter состоит из временных и пространственных модулей, чтобы эффективно обрабатывать временную согласованность видео. Мы также предлагаем скрытый пропуск и обратное выборочное сэмплирование временных шагов для надежной адаптации и разреженного контроля. Более того, Ctrl-Adapter позволяет управлять из различных условий, просто взяв (взвешенное) среднее значений выходов ControlNet. С разнообразными основами диффузии изображений/видео (SDXL, Hotshot-XL, I2VGen-XL и SVD), Ctrl-Adapter соответствует ControlNet для управления изображениями и превосходит все базовые значения для управления видео (достигая лучших показателей точности на наборе данных DAVIS 2017) с значительно более низкими вычислительными затратами (менее 10 часов на GPU).
English
ControlNets are widely used for adding spatial control in image generation
with different conditions, such as depth maps, canny edges, and human poses.
However, there are several challenges when leveraging the pretrained image
ControlNets for controlled video generation. First, pretrained ControlNet
cannot be directly plugged into new backbone models due to the mismatch of
feature spaces, and the cost of training ControlNets for new backbones is a big
burden. Second, ControlNet features for different frames might not effectively
handle the temporal consistency. To address these challenges, we introduce
Ctrl-Adapter, an efficient and versatile framework that adds diverse controls
to any image/video diffusion models, by adapting pretrained ControlNets (and
improving temporal alignment for videos). Ctrl-Adapter provides diverse
capabilities including image control, video control, video control with sparse
frames, multi-condition control, compatibility with different backbones,
adaptation to unseen control conditions, and video editing. In Ctrl-Adapter, we
train adapter layers that fuse pretrained ControlNet features to different
image/video diffusion models, while keeping the parameters of the ControlNets
and the diffusion models frozen. Ctrl-Adapter consists of temporal and spatial
modules so that it can effectively handle the temporal consistency of videos.
We also propose latent skipping and inverse timestep sampling for robust
adaptation and sparse control. Moreover, Ctrl-Adapter enables control from
multiple conditions by simply taking the (weighted) average of ControlNet
outputs. With diverse image/video diffusion backbones (SDXL, Hotshot-XL,
I2VGen-XL, and SVD), Ctrl-Adapter matches ControlNet for image control and
outperforms all baselines for video control (achieving the SOTA accuracy on the
DAVIS 2017 dataset) with significantly lower computational costs (less than 10
GPU hours).Summary
AI-Generated Summary