Face Adapter per Modelli di Diffusione Pre-addestrati con Controllo Fine-Granularità di ID e Attributi
Face Adapter for Pre-Trained Diffusion Models with Fine-Grained ID and Attribute Control
May 21, 2024
Autori: Yue Han, Junwei Zhu, Keke He, Xu Chen, Yanhao Ge, Wei Li, Xiangtai Li, Jiangning Zhang, Chengjie Wang, Yong Liu
cs.AI
Abstract
I metodi attuali di reenactment e swapping facciale si basano principalmente su framework GAN, ma l'attenzione recente si è spostata verso modelli di diffusione pre-addestrati per le loro superiori capacità di generazione. Tuttavia, l'addestramento di questi modelli è dispendioso in termini di risorse, e i risultati non hanno ancora raggiunto livelli di prestazione soddisfacenti. Per affrontare questo problema, introduciamo Face-Adapter, un adattatore efficiente ed efficace progettato per l'editing facciale ad alta precisione e alta fedeltà per modelli di diffusione pre-addestrati. Osserviamo che sia i compiti di reenactment che di swapping facciale coinvolgono essenzialmente combinazioni di struttura target, ID e attributi. Miriamo a disaccoppiare sufficientemente il controllo di questi fattori per realizzare entrambi i compiti in un unico modello. Nello specifico, il nostro metodo include: 1) Un Generatore di Condizioni Spaziali che fornisce landmark precisi e lo sfondo; 2) Un Codificatore di Identità Plug-and-play che trasferisce gli embedding facciali nello spazio testuale tramite un decoder trasformatore. 3) Un Controllore di Attributi che integra condizioni spaziali e attributi dettagliati. Face-Adapter raggiunge prestazioni comparabili o addirittura superiori in termini di precisione del controllo del movimento, capacità di ritenzione dell'ID e qualità della generazione rispetto ai modelli di reenactment/swapping facciale completamente fine-tuned. Inoltre, Face-Adapter si integra perfettamente con vari modelli StableDiffusion.
English
Current face reenactment and swapping methods mainly rely on GAN frameworks,
but recent focus has shifted to pre-trained diffusion models for their superior
generation capabilities. However, training these models is resource-intensive,
and the results have not yet achieved satisfactory performance levels. To
address this issue, we introduce Face-Adapter, an efficient and effective
adapter designed for high-precision and high-fidelity face editing for
pre-trained diffusion models. We observe that both face reenactment/swapping
tasks essentially involve combinations of target structure, ID and attribute.
We aim to sufficiently decouple the control of these factors to achieve both
tasks in one model. Specifically, our method contains: 1) A Spatial Condition
Generator that provides precise landmarks and background; 2) A Plug-and-play
Identity Encoder that transfers face embeddings to the text space by a
transformer decoder. 3) An Attribute Controller that integrates spatial
conditions and detailed attributes. Face-Adapter achieves comparable or even
superior performance in terms of motion control precision, ID retention
capability, and generation quality compared to fully fine-tuned face
reenactment/swapping models. Additionally, Face-Adapter seamlessly integrates
with various StableDiffusion models.