Adaptateur facial pour modèles de diffusion pré-entraînés avec contrôle granulaire de l'identité et des attributs
Face Adapter for Pre-Trained Diffusion Models with Fine-Grained ID and Attribute Control
May 21, 2024
papers.authors: Yue Han, Junwei Zhu, Keke He, Xu Chen, Yanhao Ge, Wei Li, Xiangtai Li, Jiangning Zhang, Chengjie Wang, Yong Liu
cs.AI
papers.abstract
Les méthodes actuelles de réincarnation et d'échange de visages reposent principalement sur des architectures GAN, mais l'attention récente s'est portée sur les modèles de diffusion pré-entraînés pour leurs capacités de génération supérieures. Cependant, l'entraînement de ces modèles est gourmand en ressources, et les résultats n'ont pas encore atteint des niveaux de performance satisfaisants. Pour résoudre ce problème, nous présentons Face-Adapter, un adaptateur efficace et performant conçu pour l'édition de visages de haute précision et haute fidélité pour les modèles de diffusion pré-entraînés. Nous observons que les tâches de réincarnation et d'échange de visages impliquent essentiellement des combinaisons de structure cible, d'identité (ID) et d'attributs. Notre objectif est de découpler suffisamment le contrôle de ces facteurs pour réaliser les deux tâches dans un seul modèle. Plus précisément, notre méthode comprend : 1) Un Générateur de Conditions Spatiales qui fournit des points de repère précis et un arrière-plan ; 2) Un Encodeur d'Identité Plug-and-play qui transfère les embeddings de visage vers l'espace textuel via un décodeur transformeur. 3) Un Contrôleur d'Attributs qui intègre les conditions spatiales et les attributs détaillés. Face-Adapter atteint des performances comparables, voire supérieures, en termes de précision du contrôle du mouvement, de capacité de rétention de l'identité et de qualité de génération par rapport aux modèles de réincarnation/échange de visages entièrement affinés. De plus, Face-Adapter s'intègre de manière transparente avec divers modèles StableDiffusion.
English
Current face reenactment and swapping methods mainly rely on GAN frameworks,
but recent focus has shifted to pre-trained diffusion models for their superior
generation capabilities. However, training these models is resource-intensive,
and the results have not yet achieved satisfactory performance levels. To
address this issue, we introduce Face-Adapter, an efficient and effective
adapter designed for high-precision and high-fidelity face editing for
pre-trained diffusion models. We observe that both face reenactment/swapping
tasks essentially involve combinations of target structure, ID and attribute.
We aim to sufficiently decouple the control of these factors to achieve both
tasks in one model. Specifically, our method contains: 1) A Spatial Condition
Generator that provides precise landmarks and background; 2) A Plug-and-play
Identity Encoder that transfers face embeddings to the text space by a
transformer decoder. 3) An Attribute Controller that integrates spatial
conditions and detailed attributes. Face-Adapter achieves comparable or even
superior performance in terms of motion control precision, ID retention
capability, and generation quality compared to fully fine-tuned face
reenactment/swapping models. Additionally, Face-Adapter seamlessly integrates
with various StableDiffusion models.