ControlNet++: 효율적 일관성 피드백을 통한 조건부 제어 개선
ControlNet++: Improving Conditional Controls with Efficient Consistency Feedback
April 11, 2024
저자: Ming Li, Taojiannan Yang, Huafeng Kuang, Jie Wu, Zhaoning Wang, Xuefeng Xiao, Chen Chen
cs.AI
초록
텍스트-이미지 확산 모델의 제어 가능성을 향상시키기 위해, 기존의 ControlNet과 같은 연구들은 이미지 기반 조건부 제어를 도입했습니다. 본 논문에서는 기존 방법들이 여전히 이미지 조건부 제어와 일치하는 이미지를 생성하는 데 있어 상당한 어려움에 직면하고 있음을 밝힙니다. 이를 해결하기 위해, 우리는 생성된 이미지와 조건부 제어 간의 픽셀 수준 순환 일관성을 명시적으로 최적화하여 제어 가능한 생성을 개선하는 새로운 접근법인 ControlNet++를 제안합니다. 구체적으로, 입력 조건부 제어에 대해, 우리는 사전 훈련된 판별적 보상 모델을 사용하여 생성된 이미지의 해당 조건을 추출한 다음, 입력 조건부 제어와 추출된 조건 간의 일관성 손실을 최적화합니다. 간단한 구현 방법은 무작위 노이즈로부터 이미지를 생성한 후 일관성 손실을 계산하는 것이지만, 이러한 접근 방식은 여러 샘플링 시간 단계에 대한 그래디언트를 저장해야 하므로 상당한 시간과 메모리 비용이 발생합니다. 이를 해결하기 위해, 우리는 입력 이미지에 노이즈를 추가하여 의도적으로 교란시킨 후, 단일 단계로 노이즈가 제거된 이미지를 사용하여 보상 미세 조정을 수행하는 효율적인 보상 전략을 도입합니다. 이는 이미지 샘플링과 관련된 광범위한 비용을 피함으로써 더 효율적인 보상 미세 조정을 가능하게 합니다. 광범위한 실험을 통해 ControlNet++가 다양한 조건부 제어 하에서 제어 가능성을 크게 향상시킴을 보여줍니다. 예를 들어, 세그멘테이션 마스크, 라인 아트 에지, 깊이 조건에 대해 ControlNet 대비 각각 7.9% mIoU, 13.4% SSIM, 7.6% RMSE의 개선을 달성했습니다.
English
To enhance the controllability of text-to-image diffusion models, existing
efforts like ControlNet incorporated image-based conditional controls. In this
paper, we reveal that existing methods still face significant challenges in
generating images that align with the image conditional controls. To this end,
we propose ControlNet++, a novel approach that improves controllable generation
by explicitly optimizing pixel-level cycle consistency between generated images
and conditional controls. Specifically, for an input conditional control, we
use a pre-trained discriminative reward model to extract the corresponding
condition of the generated images, and then optimize the consistency loss
between the input conditional control and extracted condition. A
straightforward implementation would be generating images from random noises
and then calculating the consistency loss, but such an approach requires
storing gradients for multiple sampling timesteps, leading to considerable time
and memory costs. To address this, we introduce an efficient reward strategy
that deliberately disturbs the input images by adding noise, and then uses the
single-step denoised images for reward fine-tuning. This avoids the extensive
costs associated with image sampling, allowing for more efficient reward
fine-tuning. Extensive experiments show that ControlNet++ significantly
improves controllability under various conditional controls. For example, it
achieves improvements over ControlNet by 7.9% mIoU, 13.4% SSIM, and 7.6% RMSE,
respectively, for segmentation mask, line-art edge, and depth conditions.Summary
AI-Generated Summary