ControlNeXt : Un contrôle puissant et efficace pour la génération d'images et de vidéos

papers.abstract

Les modèles de diffusion ont démontré des capacités remarquables et robustes dans la génération d'images et de vidéos. Pour obtenir un meilleur contrôle sur les résultats générés, les chercheurs introduisent des architectures supplémentaires, telles que ControlNet, Adapters et ReferenceNet, afin d'intégrer des contrôles conditionnels. Cependant, les méthodes actuelles de génération contrôlée nécessitent souvent des ressources de calcul supplémentaires substantielles, en particulier pour la génération de vidéos, et rencontrent des difficultés lors de l'entraînement ou présentent un contrôle faible. Dans cet article, nous proposons ControlNeXt : une méthode puissante et efficace pour la génération contrôlée d'images et de vidéos. Nous concevons d'abord une architecture plus simple et plus efficace, remplaçant les branches supplémentaires lourdes par un coût additionnel minimal par rapport au modèle de base. Une structure aussi concise permet également à notre méthode de s'intégrer de manière transparente avec d'autres poids LoRA, permettant une modification de style sans nécessiter d'entraînement supplémentaire. En ce qui concerne l'entraînement, nous réduisons jusqu'à 90 % des paramètres apprenables par rapport aux alternatives. De plus, nous proposons une autre méthode appelée Cross Normalization (CN) en remplacement de la "Zero-Convolution" pour obtenir une convergence rapide et stable lors de l'entraînement. Nous avons mené diverses expériences avec différents modèles de base sur des images et des vidéos, démontrant la robustesse de notre méthode.

English

Diffusion models have demonstrated remarkable and robust abilities in both image and video generation. To achieve greater control over generated results, researchers introduce additional architectures, such as ControlNet, Adapters and ReferenceNet, to integrate conditioning controls. However, current controllable generation methods often require substantial additional computational resources, especially for video generation, and face challenges in training or exhibit weak control. In this paper, we propose ControlNeXt: a powerful and efficient method for controllable image and video generation. We first design a more straightforward and efficient architecture, replacing heavy additional branches with minimal additional cost compared to the base model. Such a concise structure also allows our method to seamlessly integrate with other LoRA weights, enabling style alteration without the need for additional training. As for training, we reduce up to 90% of learnable parameters compared to the alternatives. Furthermore, we propose another method called Cross Normalization (CN) as a replacement for Zero-Convolution' to achieve fast and stable training convergence. We have conducted various experiments with different base models across images and videos, demonstrating the robustness of our method.

ControlNeXt : Un contrôle puissant et efficace pour la génération d'images et de vidéos

ControlNeXt: Powerful and Efficient Control for Image and Video Generation

papers.abstract

Support