Ctrl-Adapter: Ein effizientes und vielseitiges Framework zur Anpassung verschiedener Steuerungen an jedes Diffusionsmodell

papers.abstract

ControlNets werden weit verbreitet verwendet, um räumliche Steuerung bei der Bildgenerierung unter verschiedenen Bedingungen wie Tiefenkarten, Canny-Kanten und menschlichen Posen hinzuzufügen. Es gibt jedoch mehrere Herausforderungen beim Einsatz von vorab trainierten Bild- ControlNets für die kontrollierte Videogenerierung. Erstens kann das vorab trainierte ControlNet aufgrund von Merkmalsrauminkompatibilitäten nicht direkt in neue Backbone-Modelle integriert werden, und die Kosten für das Training von ControlNets für neue Backbones sind eine große Belastung. Zweitens können ControlNet-Merkmale für verschiedene Frames möglicherweise die zeitliche Konsistenz nicht effektiv handhaben. Um diesen Herausforderungen zu begegnen, stellen wir Ctrl-Adapter vor, ein effizientes und vielseitiges Framework, das verschiedenen Bild-/Video-Diffusionsmodellen diverse Steuerungen hinzufügt, indem vorab trainierte ControlNets angepasst werden (und die zeitliche Ausrichtung für Videos verbessert wird). Ctrl-Adapter bietet vielfältige Fähigkeiten, darunter Bildsteuerung, Videosteuerung, Videosteuerung mit spärlichen Frames, Mehrbedingungssteuerung, Kompatibilität mit verschiedenen Backbones, Anpassung an unerwartete Steuerungsbedingungen und Videobearbeitung. In Ctrl-Adapter trainieren wir Adapter-Schichten, die vorab trainierte ControlNet-Merkmale mit verschiedenen Bild-/Video-Diffusionsmodellen verschmelzen, während die Parameter der ControlNets und der Diffusionsmodelle eingefroren bleiben. Ctrl-Adapter besteht aus zeitlichen und räumlichen Modulen, sodass es die zeitliche Konsistenz von Videos effektiv handhaben kann. Wir schlagen auch latentes Überspringen und inverse Zeitpunktauswahl für robuste Anpassung und spärliche Steuerung vor. Darüber hinaus ermöglicht Ctrl-Adapter die Steuerung aus mehreren Bedingungen, indem einfach der (gewichtete) Durchschnitt der ControlNet-Ausgaben genommen wird. Mit verschiedenen Bild-/Video-Diffusions-Backbones (SDXL, Hotshot-XL, I2VGen-XL und SVD) gleicht Ctrl-Adapter ControlNet für die Bildsteuerung an und übertrifft alle Baselines für die Videosteuerung (erreicht die SOTA-Genauigkeit auf dem DAVIS 2017 Datensatz) bei signifikant geringeren Rechenkosten (weniger als 10 GPU-Stunden).

English

ControlNets are widely used for adding spatial control in image generation with different conditions, such as depth maps, canny edges, and human poses. However, there are several challenges when leveraging the pretrained image ControlNets for controlled video generation. First, pretrained ControlNet cannot be directly plugged into new backbone models due to the mismatch of feature spaces, and the cost of training ControlNets for new backbones is a big burden. Second, ControlNet features for different frames might not effectively handle the temporal consistency. To address these challenges, we introduce Ctrl-Adapter, an efficient and versatile framework that adds diverse controls to any image/video diffusion models, by adapting pretrained ControlNets (and improving temporal alignment for videos). Ctrl-Adapter provides diverse capabilities including image control, video control, video control with sparse frames, multi-condition control, compatibility with different backbones, adaptation to unseen control conditions, and video editing. In Ctrl-Adapter, we train adapter layers that fuse pretrained ControlNet features to different image/video diffusion models, while keeping the parameters of the ControlNets and the diffusion models frozen. Ctrl-Adapter consists of temporal and spatial modules so that it can effectively handle the temporal consistency of videos. We also propose latent skipping and inverse timestep sampling for robust adaptation and sparse control. Moreover, Ctrl-Adapter enables control from multiple conditions by simply taking the (weighted) average of ControlNet outputs. With diverse image/video diffusion backbones (SDXL, Hotshot-XL, I2VGen-XL, and SVD), Ctrl-Adapter matches ControlNet for image control and outperforms all baselines for video control (achieving the SOTA accuracy on the DAVIS 2017 dataset) with significantly lower computational costs (less than 10 GPU hours).

Ctrl-Adapter: Ein effizientes und vielseitiges Framework zur Anpassung verschiedener Steuerungen an jedes Diffusionsmodell

Ctrl-Adapter: An Efficient and Versatile Framework for Adapting Diverse Controls to Any Diffusion Model

papers.abstract

Support