ControlNet++ : Amélioration des contrôles conditionnels par un retour de cohérence efficace
ControlNet++: Improving Conditional Controls with Efficient Consistency Feedback
April 11, 2024
Auteurs: Ming Li, Taojiannan Yang, Huafeng Kuang, Jie Wu, Zhaoning Wang, Xuefeng Xiao, Chen Chen
cs.AI
Résumé
Pour améliorer la contrôlabilité des modèles de diffusion texte-image, les approches existantes comme ControlNet ont intégré des contrôles conditionnels basés sur l'image. Dans cet article, nous révélons que les méthodes actuelles rencontrent encore des difficultés significatives pour générer des images alignées avec les contrôles conditionnels. Pour y remédier, nous proposons ControlNet++, une nouvelle approche qui améliore la génération contrôlée en optimisant explicitement la cohérence cyclique au niveau des pixels entre les images générées et les contrôles conditionnels. Plus précisément, pour un contrôle conditionnel en entrée, nous utilisons un modèle de récompense discriminatif pré-entraîné pour extraire la condition correspondante des images générées, puis nous optimisons la perte de cohérence entre le contrôle conditionnel d'entrée et la condition extraite. Une implémentation directe consisterait à générer des images à partir de bruits aléatoires puis à calculer la perte de cohérence, mais cette approche nécessite de stocker les gradients pour plusieurs étapes d'échantillonnage, entraînant des coûts importants en temps et en mémoire. Pour résoudre ce problème, nous introduisons une stratégie de récompense efficace qui perturbe délibérément les images d'entrée en ajoutant du bruit, puis utilise les images débruitées en une seule étape pour l'affinage par récompense. Cela évite les coûts importants associés à l'échantillonnage d'images, permettant un affinage par récompense plus efficace. Des expériences approfondies montrent que ControlNet++ améliore significativement la contrôlabilité sous divers contrôles conditionnels. Par exemple, il obtient des améliorations par rapport à ControlNet de 7,9 % en mIoU, 13,4 % en SSIM et 7,6 % en RMSE, respectivement pour les conditions de masque de segmentation, de contour en ligne claire et de profondeur.
English
To enhance the controllability of text-to-image diffusion models, existing
efforts like ControlNet incorporated image-based conditional controls. In this
paper, we reveal that existing methods still face significant challenges in
generating images that align with the image conditional controls. To this end,
we propose ControlNet++, a novel approach that improves controllable generation
by explicitly optimizing pixel-level cycle consistency between generated images
and conditional controls. Specifically, for an input conditional control, we
use a pre-trained discriminative reward model to extract the corresponding
condition of the generated images, and then optimize the consistency loss
between the input conditional control and extracted condition. A
straightforward implementation would be generating images from random noises
and then calculating the consistency loss, but such an approach requires
storing gradients for multiple sampling timesteps, leading to considerable time
and memory costs. To address this, we introduce an efficient reward strategy
that deliberately disturbs the input images by adding noise, and then uses the
single-step denoised images for reward fine-tuning. This avoids the extensive
costs associated with image sampling, allowing for more efficient reward
fine-tuning. Extensive experiments show that ControlNet++ significantly
improves controllability under various conditional controls. For example, it
achieves improvements over ControlNet by 7.9% mIoU, 13.4% SSIM, and 7.6% RMSE,
respectively, for segmentation mask, line-art edge, and depth conditions.Summary
AI-Generated Summary