ControlNet++: Melhorando Controles Condicionais com Feedback de Consistência Eficiente
ControlNet++: Improving Conditional Controls with Efficient Consistency Feedback
April 11, 2024
Autores: Ming Li, Taojiannan Yang, Huafeng Kuang, Jie Wu, Zhaoning Wang, Xuefeng Xiao, Chen Chen
cs.AI
Resumo
Para melhorar a controlabilidade dos modelos de difusão de texto para imagem, esforços existentes, como o ControlNet, incorporaram controles condicionais baseados em imagem. Neste artigo, revelamos que os métodos existentes ainda enfrentam desafios significativos na geração de imagens que se alinham com os controles condicionais de imagem. Para isso, propomos o ControlNet++, uma abordagem inovadora que melhora a geração controlável ao otimizar explicitamente a consistência cíclica em nível de pixel entre as imagens geradas e os controles condicionais. Especificamente, para um controle condicional de entrada, utilizamos um modelo discriminativo de recompensa pré-treinado para extrair a condição correspondente das imagens geradas e, em seguida, otimizamos a perda de consistência entre o controle condicional de entrada e a condição extraída. Uma implementação direta seria gerar imagens a partir de ruídos aleatórios e, então, calcular a perda de consistência, mas essa abordagem exige o armazenamento de gradientes para múltiplos passos de amostragem, resultando em custos consideráveis de tempo e memória. Para resolver isso, introduzimos uma estratégia de recompensa eficiente que deliberadamente perturba as imagens de entrada ao adicionar ruído e, em seguida, utiliza as imagens desnaturadas em um único passo para o ajuste fino da recompensa. Isso evita os custos extensos associados à amostragem de imagens, permitindo um ajuste fino de recompensa mais eficiente. Experimentos extensivos mostram que o ControlNet++ melhora significativamente a controlabilidade sob vários controles condicionais. Por exemplo, ele alcança melhorias em relação ao ControlNet de 7,9% mIoU, 13,4% SSIM e 7,6% RMSE, respectivamente, para condições de máscara de segmentação, borda de arte linear e profundidade.
English
To enhance the controllability of text-to-image diffusion models, existing
efforts like ControlNet incorporated image-based conditional controls. In this
paper, we reveal that existing methods still face significant challenges in
generating images that align with the image conditional controls. To this end,
we propose ControlNet++, a novel approach that improves controllable generation
by explicitly optimizing pixel-level cycle consistency between generated images
and conditional controls. Specifically, for an input conditional control, we
use a pre-trained discriminative reward model to extract the corresponding
condition of the generated images, and then optimize the consistency loss
between the input conditional control and extracted condition. A
straightforward implementation would be generating images from random noises
and then calculating the consistency loss, but such an approach requires
storing gradients for multiple sampling timesteps, leading to considerable time
and memory costs. To address this, we introduce an efficient reward strategy
that deliberately disturbs the input images by adding noise, and then uses the
single-step denoised images for reward fine-tuning. This avoids the extensive
costs associated with image sampling, allowing for more efficient reward
fine-tuning. Extensive experiments show that ControlNet++ significantly
improves controllability under various conditional controls. For example, it
achieves improvements over ControlNet by 7.9% mIoU, 13.4% SSIM, and 7.6% RMSE,
respectively, for segmentation mask, line-art edge, and depth conditions.