FreeControl: 任意のテキストから画像への拡散モデルにおける条件付け不要な空間制御
FreeControl: Training-Free Spatial Control of Any Text-to-Image Diffusion Model with Any Condition
December 12, 2023
著者: Sicheng Mo, Fangzhou Mu, Kuan Heng Lin, Yanli Liu, Bochen Guan, Yin Li, Bolei Zhou
cs.AI
要旨
最近のControlNetなどのアプローチは、テキストから画像(T2I)生成の拡散モデルに対して、ユーザーにきめ細かい空間的制御を提供します。しかし、空間的条件の種類、モデルアーキテクチャ、チェックポイントごとに補助モジュールを訓練する必要があり、これが人間のデザイナーがAIモデルに伝えたい多様な意図や好みと対立しています。本研究では、複数の条件、アーキテクチャ、チェックポイントを同時にサポートする、訓練不要の制御可能なT2I生成手法であるFreeControlを提案します。FreeControlは、ガイダンス画像との構造整合性を促進するための構造ガイダンスと、同じシードを使用して生成された画像間の外観共有を可能にする外観ガイダンスを設計します。広範な定性的および定量的な実験により、FreeControlが様々な事前訓練済みT2Iモデルにおいて優れた性能を発揮することが実証されています。特に、FreeControlは多くの異なるアーキテクチャやチェックポイントに対して便利な訓練不要の制御を可能にし、既存の訓練不要手法のほとんどが失敗する難しい入力条件を許容し、訓練ベースのアプローチと競合する合成品質を達成します。
English
Recent approaches such as ControlNet offer users fine-grained spatial control
over text-to-image (T2I) diffusion models. However, auxiliary modules have to
be trained for each type of spatial condition, model architecture, and
checkpoint, putting them at odds with the diverse intents and preferences a
human designer would like to convey to the AI models during the content
creation process. In this work, we present FreeControl, a training-free
approach for controllable T2I generation that supports multiple conditions,
architectures, and checkpoints simultaneously. FreeControl designs structure
guidance to facilitate the structure alignment with a guidance image, and
appearance guidance to enable the appearance sharing between images generated
using the same seed. Extensive qualitative and quantitative experiments
demonstrate the superior performance of FreeControl across a variety of
pre-trained T2I models. In particular, FreeControl facilitates convenient
training-free control over many different architectures and checkpoints, allows
the challenging input conditions on which most of the existing training-free
methods fail, and achieves competitive synthesis quality with training-based
approaches.