Adaptador Facial para Modelos de Difusión Preentrenados con Control Detallado de Identidad y Atributos
Face Adapter for Pre-Trained Diffusion Models with Fine-Grained ID and Attribute Control
May 21, 2024
Autores: Yue Han, Junwei Zhu, Keke He, Xu Chen, Yanhao Ge, Wei Li, Xiangtai Li, Jiangning Zhang, Chengjie Wang, Yong Liu
cs.AI
Resumen
Los métodos actuales de recreación e intercambio facial se basan principalmente en marcos GAN, pero recientemente el enfoque se ha desplazado hacia modelos de difusión preentrenados por sus capacidades superiores de generación. Sin embargo, entrenar estos modelos es intensivo en recursos, y los resultados aún no han alcanzado niveles de rendimiento satisfactorios. Para abordar este problema, presentamos Face-Adapter, un adaptador eficiente y efectivo diseñado para la edición facial de alta precisión y alta fidelidad en modelos de difusión preentrenados. Observamos que tanto las tareas de recreación como de intercambio facial implican esencialmente combinaciones de estructura objetivo, identidad (ID) y atributos. Nuestro objetivo es desacoplar suficientemente el control de estos factores para lograr ambas tareas en un solo modelo. Específicamente, nuestro método incluye: 1) Un Generador de Condiciones Espaciales que proporciona puntos de referencia precisos y el fondo; 2) Un Codificador de Identidad Plug-and-play que transfiere incrustaciones faciales al espacio de texto mediante un decodificador transformador; 3) Un Controlador de Atributos que integra condiciones espaciales y atributos detallados. Face-Adapter logra un rendimiento comparable o incluso superior en términos de precisión de control de movimiento, capacidad de retención de ID y calidad de generación en comparación con modelos de recreación/intercambio facial completamente ajustados. Además, Face-Adapter se integra perfectamente con varios modelos StableDiffusion.
English
Current face reenactment and swapping methods mainly rely on GAN frameworks,
but recent focus has shifted to pre-trained diffusion models for their superior
generation capabilities. However, training these models is resource-intensive,
and the results have not yet achieved satisfactory performance levels. To
address this issue, we introduce Face-Adapter, an efficient and effective
adapter designed for high-precision and high-fidelity face editing for
pre-trained diffusion models. We observe that both face reenactment/swapping
tasks essentially involve combinations of target structure, ID and attribute.
We aim to sufficiently decouple the control of these factors to achieve both
tasks in one model. Specifically, our method contains: 1) A Spatial Condition
Generator that provides precise landmarks and background; 2) A Plug-and-play
Identity Encoder that transfers face embeddings to the text space by a
transformer decoder. 3) An Attribute Controller that integrates spatial
conditions and detailed attributes. Face-Adapter achieves comparable or even
superior performance in terms of motion control precision, ID retention
capability, and generation quality compared to fully fine-tuned face
reenactment/swapping models. Additionally, Face-Adapter seamlessly integrates
with various StableDiffusion models.Summary
AI-Generated Summary