ControlNeXt: Krachtige en efficiënte controle voor beeld- en videogeneratie

Samenvatting

Diffusiemodellen hebben opmerkelijke en robuuste capaciteiten getoond in zowel beeld- als videogeneratie. Om een grotere controle over de gegenereerde resultaten te bereiken, introduceren onderzoekers aanvullende architecturen, zoals ControlNet, Adapters en ReferenceNet, om conditioneringscontroles te integreren. Huidige methoden voor controleerbare generatie vereisen echter vaak aanzienlijke extra rekenbronnen, vooral voor videogeneratie, en kampen met uitdagingen tijdens het trainen of vertonen zwakke controle. In dit artikel stellen we ControlNeXt voor: een krachtige en efficiënte methode voor controleerbare beeld- en videogeneratie. We ontwerpen eerst een eenvoudigere en efficiëntere architectuur, waarbij zware aanvullende takken worden vervangen door minimale extra kosten in vergelijking met het basismodel. Zo'n beknopte structuur stelt onze methode ook in staat om naadloos te integreren met andere LoRA-gewichten, waardoor stijlverandering mogelijk is zonder aanvullende training. Wat betreft training, verminderen we tot 90% van de leerbare parameters in vergelijking met alternatieven. Bovendien stellen we een andere methode voor, genaamd Cross Normalization (CN), als vervanging voor 'Zero-Convolution' om snelle en stabiele trainingsconvergentie te bereiken. We hebben diverse experimenten uitgevoerd met verschillende basismodellen voor zowel beelden als video's, wat de robuustheid van onze methode aantoont.

English

Diffusion models have demonstrated remarkable and robust abilities in both image and video generation. To achieve greater control over generated results, researchers introduce additional architectures, such as ControlNet, Adapters and ReferenceNet, to integrate conditioning controls. However, current controllable generation methods often require substantial additional computational resources, especially for video generation, and face challenges in training or exhibit weak control. In this paper, we propose ControlNeXt: a powerful and efficient method for controllable image and video generation. We first design a more straightforward and efficient architecture, replacing heavy additional branches with minimal additional cost compared to the base model. Such a concise structure also allows our method to seamlessly integrate with other LoRA weights, enabling style alteration without the need for additional training. As for training, we reduce up to 90% of learnable parameters compared to the alternatives. Furthermore, we propose another method called Cross Normalization (CN) as a replacement for Zero-Convolution' to achieve fast and stable training convergence. We have conducted various experiments with different base models across images and videos, demonstrating the robustness of our method.

ControlNeXt: Krachtige en efficiënte controle voor beeld- en videogeneratie

ControlNeXt: Powerful and Efficient Control for Image and Video Generation

Samenvatting

Support