ControlNet++: Verbetering van conditionele controles met efficiënte consistentie-feedback

Samenvatting

Om de beheersbaarheid van tekst-naar-beeld diffusiemodellen te verbeteren, hebben bestaande inspanningen zoals ControlNet beeldgebaseerde conditionele controles geïntegreerd. In dit artikel tonen we aan dat bestaande methoden nog steeds aanzienlijke uitdagingen ondervinden bij het genereren van afbeeldingen die overeenkomen met de beeldconditionele controles. Daarom stellen we ControlNet++ voor, een nieuwe aanpak die de beheersbare generatie verbetert door expliciet pixel-niveau cyclusconsistentie tussen gegenereerde afbeeldingen en conditionele controles te optimaliseren. Specifiek gebruiken we voor een invoerconditionele controle een vooraf getraind discriminerend beloningsmodel om de corresponderende conditie van de gegenereerde afbeeldingen te extraheren, en optimaliseren we vervolgens het consistentieverlies tussen de invoerconditionele controle en de geëxtraheerde conditie. Een eenvoudige implementatie zou zijn om afbeeldingen te genereren uit willekeurige ruis en vervolgens het consistentieverlies te berekenen, maar een dergelijke aanpak vereist het opslaan van gradiënten voor meerdere samplingtijdstappen, wat aanzienlijke tijd- en geheugenkosten met zich meebrengt. Om dit aan te pakken, introduceren we een efficiënte beloningsstrategie die opzettelijk de invoerafbeeldingen verstoort door ruis toe te voegen, en vervolgens de enkelstaps ontruisde afbeeldingen gebruikt voor beloningsfine-tuning. Dit vermijdt de uitgebreide kosten die gepaard gaan met beeld sampling, waardoor efficiëntere beloningsfine-tuning mogelijk wordt. Uitgebreide experimenten tonen aan dat ControlNet++ de beheersbaarheid aanzienlijk verbetert onder verschillende conditionele controles. Het behaalt bijvoorbeeld verbeteringen ten opzichte van ControlNet van 7,9% mIoU, 13,4% SSIM en 7,6% RMSE voor respectievelijk segmentatiemasker, lijnkunstrand en dieptecondities.

English

To enhance the controllability of text-to-image diffusion models, existing efforts like ControlNet incorporated image-based conditional controls. In this paper, we reveal that existing methods still face significant challenges in generating images that align with the image conditional controls. To this end, we propose ControlNet++, a novel approach that improves controllable generation by explicitly optimizing pixel-level cycle consistency between generated images and conditional controls. Specifically, for an input conditional control, we use a pre-trained discriminative reward model to extract the corresponding condition of the generated images, and then optimize the consistency loss between the input conditional control and extracted condition. A straightforward implementation would be generating images from random noises and then calculating the consistency loss, but such an approach requires storing gradients for multiple sampling timesteps, leading to considerable time and memory costs. To address this, we introduce an efficient reward strategy that deliberately disturbs the input images by adding noise, and then uses the single-step denoised images for reward fine-tuning. This avoids the extensive costs associated with image sampling, allowing for more efficient reward fine-tuning. Extensive experiments show that ControlNet++ significantly improves controllability under various conditional controls. For example, it achieves improvements over ControlNet by 7.9% mIoU, 13.4% SSIM, and 7.6% RMSE, respectively, for segmentation mask, line-art edge, and depth conditions.

ControlNet++: Verbetering van conditionele controles met efficiënte consistentie-feedback

ControlNet++: Improving Conditional Controls with Efficient Consistency Feedback

Samenvatting

Support