ControlNet++ : Amélioration des contrôles conditionnels par un retour de cohérence efficace

papers.abstract

Pour améliorer la contrôlabilité des modèles de diffusion texte-image, les approches existantes comme ControlNet ont intégré des contrôles conditionnels basés sur l'image. Dans cet article, nous révélons que les méthodes actuelles rencontrent encore des difficultés significatives pour générer des images alignées avec les contrôles conditionnels. Pour y remédier, nous proposons ControlNet++, une nouvelle approche qui améliore la génération contrôlée en optimisant explicitement la cohérence cyclique au niveau des pixels entre les images générées et les contrôles conditionnels. Plus précisément, pour un contrôle conditionnel en entrée, nous utilisons un modèle de récompense discriminatif pré-entraîné pour extraire la condition correspondante des images générées, puis nous optimisons la perte de cohérence entre le contrôle conditionnel d'entrée et la condition extraite. Une implémentation directe consisterait à générer des images à partir de bruits aléatoires puis à calculer la perte de cohérence, mais cette approche nécessite de stocker les gradients pour plusieurs étapes d'échantillonnage, entraînant des coûts importants en temps et en mémoire. Pour résoudre ce problème, nous introduisons une stratégie de récompense efficace qui perturbe délibérément les images d'entrée en ajoutant du bruit, puis utilise les images débruitées en une seule étape pour l'affinage par récompense. Cela évite les coûts importants associés à l'échantillonnage d'images, permettant un affinage par récompense plus efficace. Des expériences approfondies montrent que ControlNet++ améliore significativement la contrôlabilité sous divers contrôles conditionnels. Par exemple, il obtient des améliorations par rapport à ControlNet de 7,9 % en mIoU, 13,4 % en SSIM et 7,6 % en RMSE, respectivement pour les conditions de masque de segmentation, de contour en ligne claire et de profondeur.

English

To enhance the controllability of text-to-image diffusion models, existing efforts like ControlNet incorporated image-based conditional controls. In this paper, we reveal that existing methods still face significant challenges in generating images that align with the image conditional controls. To this end, we propose ControlNet++, a novel approach that improves controllable generation by explicitly optimizing pixel-level cycle consistency between generated images and conditional controls. Specifically, for an input conditional control, we use a pre-trained discriminative reward model to extract the corresponding condition of the generated images, and then optimize the consistency loss between the input conditional control and extracted condition. A straightforward implementation would be generating images from random noises and then calculating the consistency loss, but such an approach requires storing gradients for multiple sampling timesteps, leading to considerable time and memory costs. To address this, we introduce an efficient reward strategy that deliberately disturbs the input images by adding noise, and then uses the single-step denoised images for reward fine-tuning. This avoids the extensive costs associated with image sampling, allowing for more efficient reward fine-tuning. Extensive experiments show that ControlNet++ significantly improves controllability under various conditional controls. For example, it achieves improvements over ControlNet by 7.9% mIoU, 13.4% SSIM, and 7.6% RMSE, respectively, for segmentation mask, line-art edge, and depth conditions.

ControlNet++ : Amélioration des contrôles conditionnels par un retour de cohérence efficace

ControlNet++: Improving Conditional Controls with Efficient Consistency Feedback

papers.abstract

Support