ControlNet++: 効率的な一貫性フィードバックによる条件付き制御の改善
ControlNet++: Improving Conditional Controls with Efficient Consistency Feedback
April 11, 2024
著者: Ming Li, Taojiannan Yang, Huafeng Kuang, Jie Wu, Zhaoning Wang, Xuefeng Xiao, Chen Chen
cs.AI
要旨
テキストから画像への拡散モデルの制御性を向上させるため、既存の研究ではControlNetなど、画像ベースの条件制御が取り入れられてきました。本論文では、既存の手法が画像条件制御に整合した画像を生成する上で依然として大きな課題に直面していることを明らかにします。これに対処するため、我々はControlNet++を提案します。これは、生成画像と条件制御間のピクセルレベルのサイクル一貫性を明示的に最適化することで、制御可能な生成を改善する新しいアプローチです。具体的には、入力条件制御に対して、事前学習された識別型報酬モデルを使用して生成画像の対応する条件を抽出し、入力条件制御と抽出された条件間の一貫性損失を最適化します。単純な実装方法としては、ランダムノイズから画像を生成し、一貫性損失を計算する方法が考えられますが、このアプローチでは複数のサンプリングタイムステップに対する勾配を保存する必要があり、多大な時間とメモリコストがかかります。これを解決するため、我々は効率的な報酬戦略を導入します。これは、意図的にノイズを加えて入力画像を撹乱し、その後、単一ステップでノイズ除去された画像を報酬の微調整に使用するものです。これにより、画像サンプリングに関連する広範なコストを回避し、より効率的な報酬の微調整が可能になります。大規模な実験により、ControlNet++が様々な条件制御下で制御性を大幅に向上させることが示されました。例えば、セグメンテーションマスク、線画エッジ、深度条件において、ControlNetに対してそれぞれ7.9%のmIoU、13.4%のSSIM、7.6%のRMSEの改善を達成しています。
English
To enhance the controllability of text-to-image diffusion models, existing
efforts like ControlNet incorporated image-based conditional controls. In this
paper, we reveal that existing methods still face significant challenges in
generating images that align with the image conditional controls. To this end,
we propose ControlNet++, a novel approach that improves controllable generation
by explicitly optimizing pixel-level cycle consistency between generated images
and conditional controls. Specifically, for an input conditional control, we
use a pre-trained discriminative reward model to extract the corresponding
condition of the generated images, and then optimize the consistency loss
between the input conditional control and extracted condition. A
straightforward implementation would be generating images from random noises
and then calculating the consistency loss, but such an approach requires
storing gradients for multiple sampling timesteps, leading to considerable time
and memory costs. To address this, we introduce an efficient reward strategy
that deliberately disturbs the input images by adding noise, and then uses the
single-step denoised images for reward fine-tuning. This avoids the extensive
costs associated with image sampling, allowing for more efficient reward
fine-tuning. Extensive experiments show that ControlNet++ significantly
improves controllability under various conditional controls. For example, it
achieves improvements over ControlNet by 7.9% mIoU, 13.4% SSIM, and 7.6% RMSE,
respectively, for segmentation mask, line-art edge, and depth conditions.Summary
AI-Generated Summary