ControlNeXt: Krachtige en efficiënte controle voor beeld- en videogeneratie
ControlNeXt: Powerful and Efficient Control for Image and Video Generation
August 12, 2024
Auteurs: Bohao Peng, Jian Wang, Yuechen Zhang, Wenbo Li, Ming-Chang Yang, Jiaya Jia
cs.AI
Samenvatting
Diffusiemodellen hebben opmerkelijke en robuuste capaciteiten getoond in zowel beeld- als videogeneratie. Om een grotere controle over de gegenereerde resultaten te bereiken, introduceren onderzoekers aanvullende architecturen, zoals ControlNet, Adapters en ReferenceNet, om conditioneringscontroles te integreren. Huidige methoden voor controleerbare generatie vereisen echter vaak aanzienlijke extra rekenbronnen, vooral voor videogeneratie, en kampen met uitdagingen tijdens het trainen of vertonen zwakke controle. In dit artikel stellen we ControlNeXt voor: een krachtige en efficiënte methode voor controleerbare beeld- en videogeneratie. We ontwerpen eerst een eenvoudigere en efficiëntere architectuur, waarbij zware aanvullende takken worden vervangen door minimale extra kosten in vergelijking met het basismodel. Zo'n beknopte structuur stelt onze methode ook in staat om naadloos te integreren met andere LoRA-gewichten, waardoor stijlverandering mogelijk is zonder aanvullende training. Wat betreft training, verminderen we tot 90% van de leerbare parameters in vergelijking met alternatieven. Bovendien stellen we een andere methode voor, genaamd Cross Normalization (CN), als vervanging voor 'Zero-Convolution' om snelle en stabiele trainingsconvergentie te bereiken. We hebben diverse experimenten uitgevoerd met verschillende basismodellen voor zowel beelden als video's, wat de robuustheid van onze methode aantoont.
English
Diffusion models have demonstrated remarkable and robust abilities in both
image and video generation. To achieve greater control over generated results,
researchers introduce additional architectures, such as ControlNet, Adapters
and ReferenceNet, to integrate conditioning controls. However, current
controllable generation methods often require substantial additional
computational resources, especially for video generation, and face challenges
in training or exhibit weak control. In this paper, we propose ControlNeXt: a
powerful and efficient method for controllable image and video generation. We
first design a more straightforward and efficient architecture, replacing heavy
additional branches with minimal additional cost compared to the base model.
Such a concise structure also allows our method to seamlessly integrate with
other LoRA weights, enabling style alteration without the need for additional
training. As for training, we reduce up to 90% of learnable parameters compared
to the alternatives. Furthermore, we propose another method called Cross
Normalization (CN) as a replacement for Zero-Convolution' to achieve fast and
stable training convergence. We have conducted various experiments with
different base models across images and videos, demonstrating the robustness of
our method.