ControlNet++: Verbesserung der bedingten Steuerungen durch effiziente Konsistenz Feedback

papers.abstract

Um die Steuerbarkeit von Text-zu-Bild-Diffusionsmodellen zu verbessern, haben bestehende Bemühungen wie ControlNet bildbasierte bedingte Steuerungen integriert. In diesem Paper enthüllen wir, dass bestehende Methoden nach wie vor erheblichen Herausforderungen gegenüberstehen, Bilder zu generieren, die mit den bildbasierten bedingten Steuerungen übereinstimmen. Zu diesem Zweck schlagen wir ControlNet++ vor, einen neuartigen Ansatz, der die steuerbare Generierung verbessert, indem er explizit die Pixel-Ebenen-Zykluskonsistenz zwischen generierten Bildern und bedingten Steuerungen optimiert. Speziell für eine Eingabebedingung nutzen wir ein vortrainiertes diskriminatives Belohnungsmodell, um die entsprechende Bedingung der generierten Bilder zu extrahieren, und optimieren dann den Konsistenzverlust zwischen der Eingabebedingung und der extrahierten Bedingung. Eine einfache Implementierung würde darin bestehen, Bilder aus zufälligem Rauschen zu generieren und dann den Konsistenzverlust zu berechnen, aber ein solcher Ansatz erfordert das Speichern von Gradienten für mehrere Abtastzeitpunkte, was zu erheblichen Zeit- und Speicherkosten führt. Um dies zu lösen, führen wir eine effiziente Belohnungsstrategie ein, die die Eingabebilder gezielt stört, indem Rauschen hinzugefügt wird, und dann die rauschbereinigten Bilder für die Feinabstimmung der Belohnung verwendet. Dies vermeidet die umfangreichen Kosten, die mit der Bildabtastung verbunden sind, und ermöglicht eine effizientere Feinabstimmung der Belohnung. Umfangreiche Experimente zeigen, dass ControlNet++ die Steuerbarkeit unter verschiedenen bedingten Steuerungen signifikant verbessert. Beispielsweise erzielt es Verbesserungen gegenüber ControlNet von 7,9% mIoU, 13,4% SSIM und 7,6% RMSE für Segmentierungsmasken, Linienkunst-Kanten und Tiefenbedingungen.

English

To enhance the controllability of text-to-image diffusion models, existing efforts like ControlNet incorporated image-based conditional controls. In this paper, we reveal that existing methods still face significant challenges in generating images that align with the image conditional controls. To this end, we propose ControlNet++, a novel approach that improves controllable generation by explicitly optimizing pixel-level cycle consistency between generated images and conditional controls. Specifically, for an input conditional control, we use a pre-trained discriminative reward model to extract the corresponding condition of the generated images, and then optimize the consistency loss between the input conditional control and extracted condition. A straightforward implementation would be generating images from random noises and then calculating the consistency loss, but such an approach requires storing gradients for multiple sampling timesteps, leading to considerable time and memory costs. To address this, we introduce an efficient reward strategy that deliberately disturbs the input images by adding noise, and then uses the single-step denoised images for reward fine-tuning. This avoids the extensive costs associated with image sampling, allowing for more efficient reward fine-tuning. Extensive experiments show that ControlNet++ significantly improves controllability under various conditional controls. For example, it achieves improvements over ControlNet by 7.9% mIoU, 13.4% SSIM, and 7.6% RMSE, respectively, for segmentation mask, line-art edge, and depth conditions.

ControlNet++: Verbesserung der bedingten Steuerungen durch effiziente Konsistenz Feedback

ControlNet++: Improving Conditional Controls with Efficient Consistency Feedback

papers.abstract

Support