ControlNet++: Verbetering van conditionele controles met efficiënte consistentie-feedback
ControlNet++: Improving Conditional Controls with Efficient Consistency Feedback
April 11, 2024
Auteurs: Ming Li, Taojiannan Yang, Huafeng Kuang, Jie Wu, Zhaoning Wang, Xuefeng Xiao, Chen Chen
cs.AI
Samenvatting
Om de beheersbaarheid van tekst-naar-beeld diffusiemodellen te verbeteren, hebben bestaande inspanningen zoals ControlNet beeldgebaseerde conditionele controles geïntegreerd. In dit artikel tonen we aan dat bestaande methoden nog steeds aanzienlijke uitdagingen ondervinden bij het genereren van afbeeldingen die overeenkomen met de beeldconditionele controles. Daarom stellen we ControlNet++ voor, een nieuwe aanpak die de beheersbare generatie verbetert door expliciet pixel-niveau cyclusconsistentie tussen gegenereerde afbeeldingen en conditionele controles te optimaliseren. Specifiek gebruiken we voor een invoerconditionele controle een vooraf getraind discriminerend beloningsmodel om de corresponderende conditie van de gegenereerde afbeeldingen te extraheren, en optimaliseren we vervolgens het consistentieverlies tussen de invoerconditionele controle en de geëxtraheerde conditie. Een eenvoudige implementatie zou zijn om afbeeldingen te genereren uit willekeurige ruis en vervolgens het consistentieverlies te berekenen, maar een dergelijke aanpak vereist het opslaan van gradiënten voor meerdere samplingtijdstappen, wat aanzienlijke tijd- en geheugenkosten met zich meebrengt. Om dit aan te pakken, introduceren we een efficiënte beloningsstrategie die opzettelijk de invoerafbeeldingen verstoort door ruis toe te voegen, en vervolgens de enkelstaps ontruisde afbeeldingen gebruikt voor beloningsfine-tuning. Dit vermijdt de uitgebreide kosten die gepaard gaan met beeld sampling, waardoor efficiëntere beloningsfine-tuning mogelijk wordt. Uitgebreide experimenten tonen aan dat ControlNet++ de beheersbaarheid aanzienlijk verbetert onder verschillende conditionele controles. Het behaalt bijvoorbeeld verbeteringen ten opzichte van ControlNet van 7,9% mIoU, 13,4% SSIM en 7,6% RMSE voor respectievelijk segmentatiemasker, lijnkunstrand en dieptecondities.
English
To enhance the controllability of text-to-image diffusion models, existing
efforts like ControlNet incorporated image-based conditional controls. In this
paper, we reveal that existing methods still face significant challenges in
generating images that align with the image conditional controls. To this end,
we propose ControlNet++, a novel approach that improves controllable generation
by explicitly optimizing pixel-level cycle consistency between generated images
and conditional controls. Specifically, for an input conditional control, we
use a pre-trained discriminative reward model to extract the corresponding
condition of the generated images, and then optimize the consistency loss
between the input conditional control and extracted condition. A
straightforward implementation would be generating images from random noises
and then calculating the consistency loss, but such an approach requires
storing gradients for multiple sampling timesteps, leading to considerable time
and memory costs. To address this, we introduce an efficient reward strategy
that deliberately disturbs the input images by adding noise, and then uses the
single-step denoised images for reward fine-tuning. This avoids the extensive
costs associated with image sampling, allowing for more efficient reward
fine-tuning. Extensive experiments show that ControlNet++ significantly
improves controllability under various conditional controls. For example, it
achieves improvements over ControlNet by 7.9% mIoU, 13.4% SSIM, and 7.6% RMSE,
respectively, for segmentation mask, line-art edge, and depth conditions.