MagicFace : Édition haute fidélité des expressions faciales avec contrôle des unités d'action
MagicFace: High-Fidelity Facial Expression Editing with Action-Unit Control
January 4, 2025
Auteurs: Mengting Wei, Tuomas Varanka, Xingxun Jiang, Huai-Qian Khor, Guoying Zhao
cs.AI
Résumé
Nous abordons le problème de l'édition des expressions faciales en contrôlant la variation relative de l'unité d'action faciale (AU) de la même personne. Cela nous permet de modifier l'expression de cette personne de manière fine, continue et interprétable, tout en préservant son identité, sa posture, son arrière-plan et ses attributs faciaux détaillés. La clé de notre modèle, que nous appelons MagicFace, est un modèle de diffusion conditionné par les variations de l'AU et un encodeur ID pour préserver les détails faciaux d'une grande cohérence. Plus précisément, pour préserver les détails faciaux avec l'identité d'entrée, nous exploitons la puissance des modèles de diffusion stables pré-entraînés et concevons un encodeur ID pour fusionner les caractéristiques d'apparence grâce à l'auto-attention. Pour maintenir la cohérence de l'arrière-plan et de la posture, nous introduisons un Contrôleur d'Attributs efficace en informant explicitement le modèle de l'arrière-plan actuel et de la posture de la cible. En injectant les variations de l'AU dans un UNet de débruitage, notre modèle peut animer des identités arbitraires avec diverses combinaisons d'AU, offrant des résultats supérieurs en matière d'édition d'expressions haute fidélité par rapport à d'autres travaux d'édition d'expressions faciales. Le code est disponible publiquement sur https://github.com/weimengting/MagicFace.
English
We address the problem of facial expression editing by controling the
relative variation of facial action-unit (AU) from the same person. This
enables us to edit this specific person's expression in a fine-grained,
continuous and interpretable manner, while preserving their identity, pose,
background and detailed facial attributes. Key to our model, which we dub
MagicFace, is a diffusion model conditioned on AU variations and an ID encoder
to preserve facial details of high consistency. Specifically, to preserve the
facial details with the input identity, we leverage the power of pretrained
Stable-Diffusion models and design an ID encoder to merge appearance features
through self-attention. To keep background and pose consistency, we introduce
an efficient Attribute Controller by explicitly informing the model of current
background and pose of the target. By injecting AU variations into a denoising
UNet, our model can animate arbitrary identities with various AU combinations,
yielding superior results in high-fidelity expression editing compared to other
facial expression editing works. Code is publicly available at
https://github.com/weimengting/MagicFace.