テキストから画像への拡散モデルを直交ファインチューニングによって制御する
Controlling Text-to-Image Diffusion by Orthogonal Finetuning
June 12, 2023
著者: Zeju Qiu, Weiyang Liu, Haiwen Feng, Yuxuan Xue, Yao Feng, Zhen Liu, Dan Zhang, Adrian Weller, Bernhard Schölkopf
cs.AI
要旨
大規模なテキストから画像への拡散モデルは、テキストプロンプトから写真のようにリアルな画像を生成する際に驚くべき能力を発揮します。これらの強力なモデルを効果的に誘導または制御して、さまざまな下流タスクを実行させる方法は、重要な未解決の問題となっています。この課題に取り組むため、我々はテキストから画像への拡散モデルを下流タスクに適応させるための原理に基づいたファインチューニング手法――直交ファインチューニング(Orthogonal Finetuning, OFT)を提案します。既存の手法とは異なり、OFTは単位超球面上のニューロン間の関係を特徴付ける超球面エネルギーを理論的に保存することができます。この特性は、テキストから画像への拡散モデルの意味生成能力を維持する上で重要であることがわかりました。ファインチューニングの安定性を向上させるため、我々はさらに超球面に半径制約を課した制約付き直交ファインチューニング(Constrained Orthogonal Finetuning, COFT)を提案します。具体的には、2つの重要なテキストから画像へのファインチューニングタスクを検討します。1つは、特定の被写体の数枚の画像とテキストプロンプトを与えて被写体固有の画像を生成する被写体駆動生成、もう1つはモデルが追加の制御信号を受け取れるようにする制御可能生成です。我々は、OFTフレームワークが生成品質と収束速度の両面で既存の手法を上回ることを実験的に示します。
English
Large text-to-image diffusion models have impressive capabilities in
generating photorealistic images from text prompts. How to effectively guide or
control these powerful models to perform different downstream tasks becomes an
important open problem. To tackle this challenge, we introduce a principled
finetuning method -- Orthogonal Finetuning (OFT), for adapting text-to-image
diffusion models to downstream tasks. Unlike existing methods, OFT can provably
preserve hyperspherical energy which characterizes the pairwise neuron
relationship on the unit hypersphere. We find that this property is crucial for
preserving the semantic generation ability of text-to-image diffusion models.
To improve finetuning stability, we further propose Constrained Orthogonal
Finetuning (COFT) which imposes an additional radius constraint to the
hypersphere. Specifically, we consider two important finetuning text-to-image
tasks: subject-driven generation where the goal is to generate subject-specific
images given a few images of a subject and a text prompt, and controllable
generation where the goal is to enable the model to take in additional control
signals. We empirically show that our OFT framework outperforms existing
methods in generation quality and convergence speed.