미세 조정된 ID 및 속성 제어를 위한 사전 학습된 확산 모델용 Face Adapter
Face Adapter for Pre-Trained Diffusion Models with Fine-Grained ID and Attribute Control
May 21, 2024
저자: Yue Han, Junwei Zhu, Keke He, Xu Chen, Yanhao Ge, Wei Li, Xiangtai Li, Jiangning Zhang, Chengjie Wang, Yong Liu
cs.AI
초록
현재의 얼굴 재현 및 교체 방법은 주로 GAN 프레임워크에 의존하고 있지만, 최근에는 더 우수한 생성 능력을 가진 사전 학습된 확산 모델로 관심이 옮겨가고 있습니다. 그러나 이러한 모델을 학습시키는 데는 많은 자원이 소요되며, 결과물도 아직 만족스러운 성능 수준에 이르지 못하고 있습니다. 이 문제를 해결하기 위해, 우리는 사전 학습된 확산 모델을 위한 고정밀도 및 고충실도 얼굴 편집을 위해 설계된 효율적이고 효과적인 어댑터인 Face-Adapter를 소개합니다. 우리는 얼굴 재현 및 교체 작업이 본질적으로 대상 구조, ID 및 속성의 조합을 포함한다는 점을 관찰했습니다. 우리는 이러한 요소들의 제어를 충분히 분리하여 하나의 모델로 두 작업을 모두 달성하는 것을 목표로 합니다. 구체적으로, 우리의 방법은 다음과 같은 요소를 포함합니다: 1) 정확한 랜드마크와 배경을 제공하는 공간 조건 생성기; 2) 트랜스포머 디코더를 통해 얼굴 임베딩을 텍스트 공간으로 전달하는 플러그 앤 플레이 ID 인코더; 3) 공간 조건과 세부 속성을 통합하는 속성 컨트롤러. Face-Adapter는 완전히 미세 조정된 얼굴 재현/교체 모델과 비교하여 동작 제어 정밀도, ID 유지 능력, 생성 품질 측면에서 비슷하거나 더 우수한 성능을 달성합니다. 또한, Face-Adapter는 다양한 StableDiffusion 모델과 원활하게 통합됩니다.
English
Current face reenactment and swapping methods mainly rely on GAN frameworks,
but recent focus has shifted to pre-trained diffusion models for their superior
generation capabilities. However, training these models is resource-intensive,
and the results have not yet achieved satisfactory performance levels. To
address this issue, we introduce Face-Adapter, an efficient and effective
adapter designed for high-precision and high-fidelity face editing for
pre-trained diffusion models. We observe that both face reenactment/swapping
tasks essentially involve combinations of target structure, ID and attribute.
We aim to sufficiently decouple the control of these factors to achieve both
tasks in one model. Specifically, our method contains: 1) A Spatial Condition
Generator that provides precise landmarks and background; 2) A Plug-and-play
Identity Encoder that transfers face embeddings to the text space by a
transformer decoder. 3) An Attribute Controller that integrates spatial
conditions and detailed attributes. Face-Adapter achieves comparable or even
superior performance in terms of motion control precision, ID retention
capability, and generation quality compared to fully fine-tuned face
reenactment/swapping models. Additionally, Face-Adapter seamlessly integrates
with various StableDiffusion models.