事前学習済み拡散モデル向けFace Adapter:細粒度IDと属性制御を実現
Face Adapter for Pre-Trained Diffusion Models with Fine-Grained ID and Attribute Control
May 21, 2024
著者: Yue Han, Junwei Zhu, Keke He, Xu Chen, Yanhao Ge, Wei Li, Xiangtai Li, Jiangning Zhang, Chengjie Wang, Yong Liu
cs.AI
要旨
現在の顔再現およびスワッピング手法は主にGANフレームワークに依存していますが、最近ではその優れた生成能力から事前学習済み拡散モデルに焦点が移っています。しかし、これらのモデルの学習はリソースを大量に消費し、結果もまだ満足のいく性能レベルに達していません。この問題を解決するため、我々は事前学習済み拡散モデル向けの高精度かつ高忠実度な顔編集を実現する効率的で効果的なアダプターであるFace-Adapterを提案します。顔再現/スワッピングタスクは本質的に、ターゲット構造、ID、属性の組み合わせであることを観察しました。我々はこれらの要素の制御を十分に分離し、一つのモデルで両タスクを達成することを目指しています。具体的には、我々の手法は以下の要素を含みます:1) 正確なランドマークと背景を提供する空間条件生成器、2) トランスフォーマーデコーダーによって顔埋め込みをテキスト空間に変換するプラグアンドプレイIDエンコーダー、3) 空間条件と詳細な属性を統合する属性コントローラー。Face-Adapterは、完全にファインチューニングされた顔再現/スワッピングモデルと比較して、モーション制御精度、ID保持能力、生成品質において同等またはそれ以上の性能を達成します。さらに、Face-Adapterは様々なStableDiffusionモデルとシームレスに統合されます。
English
Current face reenactment and swapping methods mainly rely on GAN frameworks,
but recent focus has shifted to pre-trained diffusion models for their superior
generation capabilities. However, training these models is resource-intensive,
and the results have not yet achieved satisfactory performance levels. To
address this issue, we introduce Face-Adapter, an efficient and effective
adapter designed for high-precision and high-fidelity face editing for
pre-trained diffusion models. We observe that both face reenactment/swapping
tasks essentially involve combinations of target structure, ID and attribute.
We aim to sufficiently decouple the control of these factors to achieve both
tasks in one model. Specifically, our method contains: 1) A Spatial Condition
Generator that provides precise landmarks and background; 2) A Plug-and-play
Identity Encoder that transfers face embeddings to the text space by a
transformer decoder. 3) An Attribute Controller that integrates spatial
conditions and detailed attributes. Face-Adapter achieves comparable or even
superior performance in terms of motion control precision, ID retention
capability, and generation quality compared to fully fine-tuned face
reenactment/swapping models. Additionally, Face-Adapter seamlessly integrates
with various StableDiffusion models.Summary
AI-Generated Summary