ControlNeXt : Un contrôle puissant et efficace pour la génération d'images et de vidéos
ControlNeXt: Powerful and Efficient Control for Image and Video Generation
August 12, 2024
Auteurs: Bohao Peng, Jian Wang, Yuechen Zhang, Wenbo Li, Ming-Chang Yang, Jiaya Jia
cs.AI
Résumé
Les modèles de diffusion ont démontré des capacités remarquables et robustes dans la génération d'images et de vidéos. Pour obtenir un meilleur contrôle sur les résultats générés, les chercheurs introduisent des architectures supplémentaires, telles que ControlNet, Adapters et ReferenceNet, afin d'intégrer des contrôles conditionnels. Cependant, les méthodes actuelles de génération contrôlée nécessitent souvent des ressources de calcul supplémentaires substantielles, en particulier pour la génération de vidéos, et rencontrent des difficultés lors de l'entraînement ou présentent un contrôle faible. Dans cet article, nous proposons ControlNeXt : une méthode puissante et efficace pour la génération contrôlée d'images et de vidéos. Nous concevons d'abord une architecture plus simple et plus efficace, remplaçant les branches supplémentaires lourdes par un coût additionnel minimal par rapport au modèle de base. Une structure aussi concise permet également à notre méthode de s'intégrer de manière transparente avec d'autres poids LoRA, permettant une modification de style sans nécessiter d'entraînement supplémentaire. En ce qui concerne l'entraînement, nous réduisons jusqu'à 90 % des paramètres apprenables par rapport aux alternatives. De plus, nous proposons une autre méthode appelée Cross Normalization (CN) en remplacement de la "Zero-Convolution" pour obtenir une convergence rapide et stable lors de l'entraînement. Nous avons mené diverses expériences avec différents modèles de base sur des images et des vidéos, démontrant la robustesse de notre méthode.
English
Diffusion models have demonstrated remarkable and robust abilities in both
image and video generation. To achieve greater control over generated results,
researchers introduce additional architectures, such as ControlNet, Adapters
and ReferenceNet, to integrate conditioning controls. However, current
controllable generation methods often require substantial additional
computational resources, especially for video generation, and face challenges
in training or exhibit weak control. In this paper, we propose ControlNeXt: a
powerful and efficient method for controllable image and video generation. We
first design a more straightforward and efficient architecture, replacing heavy
additional branches with minimal additional cost compared to the base model.
Such a concise structure also allows our method to seamlessly integrate with
other LoRA weights, enabling style alteration without the need for additional
training. As for training, we reduce up to 90% of learnable parameters compared
to the alternatives. Furthermore, we propose another method called Cross
Normalization (CN) as a replacement for Zero-Convolution' to achieve fast and
stable training convergence. We have conducted various experiments with
different base models across images and videos, demonstrating the robustness of
our method.Summary
AI-Generated Summary