Ctrl-Adapter: Ein effizientes und vielseitiges Framework zur Anpassung verschiedener Steuerungen an jedes Diffusionsmodell
Ctrl-Adapter: An Efficient and Versatile Framework for Adapting Diverse Controls to Any Diffusion Model
April 15, 2024
Autoren: Han Lin, Jaemin Cho, Abhay Zala, Mohit Bansal
cs.AI
Zusammenfassung
ControlNets werden weit verbreitet verwendet, um räumliche Steuerung bei der Bildgenerierung unter verschiedenen Bedingungen wie Tiefenkarten, Canny-Kanten und menschlichen Posen hinzuzufügen. Es gibt jedoch mehrere Herausforderungen beim Einsatz von vorab trainierten Bild- ControlNets für die kontrollierte Videogenerierung. Erstens kann das vorab trainierte ControlNet aufgrund von Merkmalsrauminkompatibilitäten nicht direkt in neue Backbone-Modelle integriert werden, und die Kosten für das Training von ControlNets für neue Backbones sind eine große Belastung. Zweitens können ControlNet-Merkmale für verschiedene Frames möglicherweise die zeitliche Konsistenz nicht effektiv handhaben. Um diesen Herausforderungen zu begegnen, stellen wir Ctrl-Adapter vor, ein effizientes und vielseitiges Framework, das verschiedenen Bild-/Video-Diffusionsmodellen diverse Steuerungen hinzufügt, indem vorab trainierte ControlNets angepasst werden (und die zeitliche Ausrichtung für Videos verbessert wird). Ctrl-Adapter bietet vielfältige Fähigkeiten, darunter Bildsteuerung, Videosteuerung, Videosteuerung mit spärlichen Frames, Mehrbedingungssteuerung, Kompatibilität mit verschiedenen Backbones, Anpassung an unerwartete Steuerungsbedingungen und Videobearbeitung. In Ctrl-Adapter trainieren wir Adapter-Schichten, die vorab trainierte ControlNet-Merkmale mit verschiedenen Bild-/Video-Diffusionsmodellen verschmelzen, während die Parameter der ControlNets und der Diffusionsmodelle eingefroren bleiben. Ctrl-Adapter besteht aus zeitlichen und räumlichen Modulen, sodass es die zeitliche Konsistenz von Videos effektiv handhaben kann. Wir schlagen auch latentes Überspringen und inverse Zeitpunktauswahl für robuste Anpassung und spärliche Steuerung vor. Darüber hinaus ermöglicht Ctrl-Adapter die Steuerung aus mehreren Bedingungen, indem einfach der (gewichtete) Durchschnitt der ControlNet-Ausgaben genommen wird. Mit verschiedenen Bild-/Video-Diffusions-Backbones (SDXL, Hotshot-XL, I2VGen-XL und SVD) gleicht Ctrl-Adapter ControlNet für die Bildsteuerung an und übertrifft alle Baselines für die Videosteuerung (erreicht die SOTA-Genauigkeit auf dem DAVIS 2017 Datensatz) bei signifikant geringeren Rechenkosten (weniger als 10 GPU-Stunden).
English
ControlNets are widely used for adding spatial control in image generation
with different conditions, such as depth maps, canny edges, and human poses.
However, there are several challenges when leveraging the pretrained image
ControlNets for controlled video generation. First, pretrained ControlNet
cannot be directly plugged into new backbone models due to the mismatch of
feature spaces, and the cost of training ControlNets for new backbones is a big
burden. Second, ControlNet features for different frames might not effectively
handle the temporal consistency. To address these challenges, we introduce
Ctrl-Adapter, an efficient and versatile framework that adds diverse controls
to any image/video diffusion models, by adapting pretrained ControlNets (and
improving temporal alignment for videos). Ctrl-Adapter provides diverse
capabilities including image control, video control, video control with sparse
frames, multi-condition control, compatibility with different backbones,
adaptation to unseen control conditions, and video editing. In Ctrl-Adapter, we
train adapter layers that fuse pretrained ControlNet features to different
image/video diffusion models, while keeping the parameters of the ControlNets
and the diffusion models frozen. Ctrl-Adapter consists of temporal and spatial
modules so that it can effectively handle the temporal consistency of videos.
We also propose latent skipping and inverse timestep sampling for robust
adaptation and sparse control. Moreover, Ctrl-Adapter enables control from
multiple conditions by simply taking the (weighted) average of ControlNet
outputs. With diverse image/video diffusion backbones (SDXL, Hotshot-XL,
I2VGen-XL, and SVD), Ctrl-Adapter matches ControlNet for image control and
outperforms all baselines for video control (achieving the SOTA accuracy on the
DAVIS 2017 dataset) with significantly lower computational costs (less than 10
GPU hours).Summary
AI-Generated Summary