FaithfulFaces : Préservation fidèle à la pose de l'identité faciale pour la génération texte-vers-vidéo
FaithfulFaces: Pose-Faithful Facial Identity Preservation for Text-to-Video Generation
May 6, 2026
Auteurs: Yuanzhi Wang, Xuhua Ren, Jiaxiang Cheng, Bing Ma, Kai Yu, Sen Liang, Wenyue Li, Tianxiang Zheng, Qinglin Lu, Zhen Cui
cs.AI
Résumé
La génération texte-vidéo préservant l'identité (IPT2V) permet aux utilisateurs de produire des vidéos variées et imaginatives tout en conservant une identité faciale humaine cohérente. Malgré les récents progrès, les méthodes existantes souffrent souvent d'une distorsion identitaire significative en présence de fortes variations de pose faciale ou d'occultations faciales. Dans cet article, nous proposons FaithfulFaces, un cadre d'apprentissage de la préservation de l'identité faciale fidèle à la pose, visant à améliorer l'IPT2V dans des scènes dynamiques complexes. L'élément clé de FaithfulFaces est un aligneur d'identité partagé par pose, qui affine et aligne les poses faciales à travers différentes vues au moyen d'un dictionnaire partagé par pose et d'une contrainte d'invariance identitaire face aux variations de pose. En mappant les entrées d'une seule vue vers une représentation globale de pose faciale avec des plongements explicites d'angles d'Euler, FaithfulFaces fournit un a priori facial fidèle à la pose qui guide les fondations génératives vers une génération robuste préservant l'identité. En particulier, nous développons un pipeline spécialisé pour constituer un ensemble de données vidéo de haute qualité présentant une diversité substantielle de poses faciales. Des expériences approfondies montrent que FaithfulFaces atteint des performances de pointe, maintenant une cohérence identitaire et une clarté structurelle supérieures, même en présence de changements de pose et d'occultations.
English
Identity-preserving text-to-video generation (IPT2V) empowers users to produce diverse and imaginative videos with consistent human facial identity. Despite recent progress, existing methods often suffer from significant identity distortion under large facial pose variations or facial occlusions. In this paper, we propose FaithfulFaces, a pose-faithful facial identity preservation learning framework to improve IPT2V in complex dynamic scenes. The key of FaithfulFaces is a pose-shared identity aligner that refines and aligns facial poses across distinct views via a pose-shared dictionary and a pose variation-identity invariance constraint. By mapping single-view inputs into a global facial pose representation with explicit Euler angle embeddings, FaithfulFaces provides a pose-faithful facial prior that guides generative foundations toward robust identity-preserving generation. In particular, we develop a specialized pipeline to curate a high-quality video dataset featuring substantial facial pose diversity. Extensive experiments demonstrate that FaithfulFaces achieves state-of-the-art performance, maintaining superior identity consistency and structural clarity even as pose changes and occlusions occur.