ControlNet++: Mejora de Controles Condicionales con Retroalimentación de Consistencia Eficiente

Resumen

Para mejorar la controlabilidad de los modelos de difusión de texto a imagen, esfuerzos existentes como ControlNet incorporaron controles condicionales basados en imágenes. En este artículo, revelamos que los métodos actuales aún enfrentan desafíos significativos al generar imágenes que se alineen con los controles condicionales de imagen. Para abordar esto, proponemos ControlNet++, un enfoque novedoso que mejora la generación controlable optimizando explícitamente la consistencia cíclica a nivel de píxeles entre las imágenes generadas y los controles condicionales. Específicamente, para un control condicional de entrada, utilizamos un modelo de recompensa discriminativo preentrenado para extraer la condición correspondiente de las imágenes generadas, y luego optimizamos la pérdida de consistencia entre el control condicional de entrada y la condición extraída. Una implementación directa sería generar imágenes a partir de ruidos aleatorios y luego calcular la pérdida de consistencia, pero este enfoque requiere almacenar gradientes para múltiples pasos de muestreo, lo que conlleva costos considerables de tiempo y memoria. Para abordar esto, introducimos una estrategia de recompensa eficiente que perturba deliberadamente las imágenes de entrada añadiendo ruido, y luego utiliza las imágenes desruidificadas en un solo paso para el ajuste fino de la recompensa. Esto evita los costos extensos asociados con el muestreo de imágenes, permitiendo un ajuste fino de la recompensa más eficiente. Experimentos extensos muestran que ControlNet++ mejora significativamente la controlabilidad bajo diversos controles condicionales. Por ejemplo, logra mejoras sobre ControlNet de 7.9% mIoU, 13.4% SSIM y 7.6% RMSE, respectivamente, para condiciones de máscara de segmentación, bordes de arte lineal y profundidad.

English

To enhance the controllability of text-to-image diffusion models, existing efforts like ControlNet incorporated image-based conditional controls. In this paper, we reveal that existing methods still face significant challenges in generating images that align with the image conditional controls. To this end, we propose ControlNet++, a novel approach that improves controllable generation by explicitly optimizing pixel-level cycle consistency between generated images and conditional controls. Specifically, for an input conditional control, we use a pre-trained discriminative reward model to extract the corresponding condition of the generated images, and then optimize the consistency loss between the input conditional control and extracted condition. A straightforward implementation would be generating images from random noises and then calculating the consistency loss, but such an approach requires storing gradients for multiple sampling timesteps, leading to considerable time and memory costs. To address this, we introduce an efficient reward strategy that deliberately disturbs the input images by adding noise, and then uses the single-step denoised images for reward fine-tuning. This avoids the extensive costs associated with image sampling, allowing for more efficient reward fine-tuning. Extensive experiments show that ControlNet++ significantly improves controllability under various conditional controls. For example, it achieves improvements over ControlNet by 7.9% mIoU, 13.4% SSIM, and 7.6% RMSE, respectively, for segmentation mask, line-art edge, and depth conditions.

ControlNet++: Mejora de Controles Condicionales con Retroalimentación de Consistencia Eficiente

ControlNet++: Improving Conditional Controls with Efficient Consistency Feedback

Resumen

Support