ControlNet++: Miglioramento dei controlli condizionali con feedback di consistenza efficiente

Abstract

Per migliorare la controllabilità dei modelli di diffusione testo-immagine, gli sforzi esistenti come ControlNet hanno incorporato controlli condizionali basati su immagini. In questo articolo, riveliamo che i metodi esistenti affrontano ancora sfide significative nella generazione di immagini che si allineano ai controlli condizionali basati su immagini. A tal fine, proponiamo ControlNet++, un approccio innovativo che migliora la generazione controllata ottimizzando esplicitamente la consistenza ciclica a livello di pixel tra le immagini generate e i controlli condizionali. Nello specifico, per un controllo condizionale di input, utilizziamo un modello discriminativo pre-addestrato per estrarre la condizione corrispondente delle immagini generate, e poi ottimizziamo la perdita di consistenza tra il controllo condizionale di input e la condizione estratta. Un'implementazione diretta consisterebbe nel generare immagini da rumori casuali e poi calcolare la perdita di consistenza, ma tale approccio richiederebbe la memorizzazione dei gradienti per più passaggi temporali di campionamento, portando a costi considerevoli in termini di tempo e memoria. Per affrontare questo problema, introduciamo una strategia di ricompensa efficiente che disturba deliberatamente le immagini di input aggiungendo rumore, e poi utilizza le immagini denoisate in un singolo passaggio per il fine-tuning della ricompensa. Ciò evita i costi estesi associati al campionamento delle immagini, consentendo un fine-tuning della ricompensa più efficiente. Esperimenti estesi dimostrano che ControlNet++ migliora significativamente la controllabilità sotto vari controlli condizionali. Ad esempio, ottiene miglioramenti rispetto a ControlNet del 7,9% mIoU, 13,4% SSIM e 7,6% RMSE, rispettivamente, per le condizioni di maschera di segmentazione, bordo di line-art e profondità.

English

To enhance the controllability of text-to-image diffusion models, existing efforts like ControlNet incorporated image-based conditional controls. In this paper, we reveal that existing methods still face significant challenges in generating images that align with the image conditional controls. To this end, we propose ControlNet++, a novel approach that improves controllable generation by explicitly optimizing pixel-level cycle consistency between generated images and conditional controls. Specifically, for an input conditional control, we use a pre-trained discriminative reward model to extract the corresponding condition of the generated images, and then optimize the consistency loss between the input conditional control and extracted condition. A straightforward implementation would be generating images from random noises and then calculating the consistency loss, but such an approach requires storing gradients for multiple sampling timesteps, leading to considerable time and memory costs. To address this, we introduce an efficient reward strategy that deliberately disturbs the input images by adding noise, and then uses the single-step denoised images for reward fine-tuning. This avoids the extensive costs associated with image sampling, allowing for more efficient reward fine-tuning. Extensive experiments show that ControlNet++ significantly improves controllability under various conditional controls. For example, it achieves improvements over ControlNet by 7.9% mIoU, 13.4% SSIM, and 7.6% RMSE, respectively, for segmentation mask, line-art edge, and depth conditions.

ControlNet++: Miglioramento dei controlli condizionali con feedback di consistenza efficiente

ControlNet++: Improving Conditional Controls with Efficient Consistency Feedback

Abstract

Support