ControlNet++: Mejora de Controles Condicionales con Retroalimentación de Consistencia Eficiente
ControlNet++: Improving Conditional Controls with Efficient Consistency Feedback
April 11, 2024
Autores: Ming Li, Taojiannan Yang, Huafeng Kuang, Jie Wu, Zhaoning Wang, Xuefeng Xiao, Chen Chen
cs.AI
Resumen
Para mejorar la controlabilidad de los modelos de difusión de texto a imagen, esfuerzos existentes como ControlNet incorporaron controles condicionales basados en imágenes. En este artículo, revelamos que los métodos actuales aún enfrentan desafíos significativos al generar imágenes que se alineen con los controles condicionales de imagen. Para abordar esto, proponemos ControlNet++, un enfoque novedoso que mejora la generación controlable optimizando explícitamente la consistencia cíclica a nivel de píxeles entre las imágenes generadas y los controles condicionales. Específicamente, para un control condicional de entrada, utilizamos un modelo de recompensa discriminativo preentrenado para extraer la condición correspondiente de las imágenes generadas, y luego optimizamos la pérdida de consistencia entre el control condicional de entrada y la condición extraída. Una implementación directa sería generar imágenes a partir de ruidos aleatorios y luego calcular la pérdida de consistencia, pero este enfoque requiere almacenar gradientes para múltiples pasos de muestreo, lo que conlleva costos considerables de tiempo y memoria. Para abordar esto, introducimos una estrategia de recompensa eficiente que perturba deliberadamente las imágenes de entrada añadiendo ruido, y luego utiliza las imágenes desruidificadas en un solo paso para el ajuste fino de la recompensa. Esto evita los costos extensos asociados con el muestreo de imágenes, permitiendo un ajuste fino de la recompensa más eficiente. Experimentos extensos muestran que ControlNet++ mejora significativamente la controlabilidad bajo diversos controles condicionales. Por ejemplo, logra mejoras sobre ControlNet de 7.9% mIoU, 13.4% SSIM y 7.6% RMSE, respectivamente, para condiciones de máscara de segmentación, bordes de arte lineal y profundidad.
English
To enhance the controllability of text-to-image diffusion models, existing
efforts like ControlNet incorporated image-based conditional controls. In this
paper, we reveal that existing methods still face significant challenges in
generating images that align with the image conditional controls. To this end,
we propose ControlNet++, a novel approach that improves controllable generation
by explicitly optimizing pixel-level cycle consistency between generated images
and conditional controls. Specifically, for an input conditional control, we
use a pre-trained discriminative reward model to extract the corresponding
condition of the generated images, and then optimize the consistency loss
between the input conditional control and extracted condition. A
straightforward implementation would be generating images from random noises
and then calculating the consistency loss, but such an approach requires
storing gradients for multiple sampling timesteps, leading to considerable time
and memory costs. To address this, we introduce an efficient reward strategy
that deliberately disturbs the input images by adding noise, and then uses the
single-step denoised images for reward fine-tuning. This avoids the extensive
costs associated with image sampling, allowing for more efficient reward
fine-tuning. Extensive experiments show that ControlNet++ significantly
improves controllability under various conditional controls. For example, it
achieves improvements over ControlNet by 7.9% mIoU, 13.4% SSIM, and 7.6% RMSE,
respectively, for segmentation mask, line-art edge, and depth conditions.Summary
AI-Generated Summary