ControlNet++: Verbesserung der bedingten Steuerungen durch effiziente Konsistenz Feedback
ControlNet++: Improving Conditional Controls with Efficient Consistency Feedback
April 11, 2024
Autoren: Ming Li, Taojiannan Yang, Huafeng Kuang, Jie Wu, Zhaoning Wang, Xuefeng Xiao, Chen Chen
cs.AI
Zusammenfassung
Um die Steuerbarkeit von Text-zu-Bild-Diffusionsmodellen zu verbessern, haben bestehende Bemühungen wie ControlNet bildbasierte bedingte Steuerungen integriert. In diesem Paper enthüllen wir, dass bestehende Methoden nach wie vor erheblichen Herausforderungen gegenüberstehen, Bilder zu generieren, die mit den bildbasierten bedingten Steuerungen übereinstimmen. Zu diesem Zweck schlagen wir ControlNet++ vor, einen neuartigen Ansatz, der die steuerbare Generierung verbessert, indem er explizit die Pixel-Ebenen-Zykluskonsistenz zwischen generierten Bildern und bedingten Steuerungen optimiert. Speziell für eine Eingabebedingung nutzen wir ein vortrainiertes diskriminatives Belohnungsmodell, um die entsprechende Bedingung der generierten Bilder zu extrahieren, und optimieren dann den Konsistenzverlust zwischen der Eingabebedingung und der extrahierten Bedingung. Eine einfache Implementierung würde darin bestehen, Bilder aus zufälligem Rauschen zu generieren und dann den Konsistenzverlust zu berechnen, aber ein solcher Ansatz erfordert das Speichern von Gradienten für mehrere Abtastzeitpunkte, was zu erheblichen Zeit- und Speicherkosten führt. Um dies zu lösen, führen wir eine effiziente Belohnungsstrategie ein, die die Eingabebilder gezielt stört, indem Rauschen hinzugefügt wird, und dann die rauschbereinigten Bilder für die Feinabstimmung der Belohnung verwendet. Dies vermeidet die umfangreichen Kosten, die mit der Bildabtastung verbunden sind, und ermöglicht eine effizientere Feinabstimmung der Belohnung. Umfangreiche Experimente zeigen, dass ControlNet++ die Steuerbarkeit unter verschiedenen bedingten Steuerungen signifikant verbessert. Beispielsweise erzielt es Verbesserungen gegenüber ControlNet von 7,9% mIoU, 13,4% SSIM und 7,6% RMSE für Segmentierungsmasken, Linienkunst-Kanten und Tiefenbedingungen.
English
To enhance the controllability of text-to-image diffusion models, existing
efforts like ControlNet incorporated image-based conditional controls. In this
paper, we reveal that existing methods still face significant challenges in
generating images that align with the image conditional controls. To this end,
we propose ControlNet++, a novel approach that improves controllable generation
by explicitly optimizing pixel-level cycle consistency between generated images
and conditional controls. Specifically, for an input conditional control, we
use a pre-trained discriminative reward model to extract the corresponding
condition of the generated images, and then optimize the consistency loss
between the input conditional control and extracted condition. A
straightforward implementation would be generating images from random noises
and then calculating the consistency loss, but such an approach requires
storing gradients for multiple sampling timesteps, leading to considerable time
and memory costs. To address this, we introduce an efficient reward strategy
that deliberately disturbs the input images by adding noise, and then uses the
single-step denoised images for reward fine-tuning. This avoids the extensive
costs associated with image sampling, allowing for more efficient reward
fine-tuning. Extensive experiments show that ControlNet++ significantly
improves controllability under various conditional controls. For example, it
achieves improvements over ControlNet by 7.9% mIoU, 13.4% SSIM, and 7.6% RMSE,
respectively, for segmentation mask, line-art edge, and depth conditions.Summary
AI-Generated Summary