FantasyTalking : Génération réaliste de portraits parlants via une synthèse cohérente des mouvements
FantasyTalking: Realistic Talking Portrait Generation via Coherent Motion Synthesis
April 7, 2025
Auteurs: Mengchao Wang, Qiang Wang, Fan Jiang, Yaqi Fan, Yunpeng Zhang, Yonggang Qi, Kun Zhao, Mu Xu
cs.AI
Résumé
Créer un avatar animé réaliste à partir d'un simple portrait statique reste un défi. Les approches existantes peinent souvent à capturer les expressions faciales subtiles, les mouvements corporels globaux associés et l'arrière-plan dynamique. Pour surmonter ces limitations, nous proposons un nouveau cadre qui exploite un modèle de transformateur de diffusion vidéo pré-entraîné pour générer des portraits parlants de haute fidélité et cohérents, avec des dynamiques de mouvement contrôlables. Au cœur de notre travail se trouve une stratégie d'alignement audio-visuel en deux étapes. Dans la première étape, nous utilisons un schéma d'entraînement au niveau des clips pour établir un mouvement global cohérent en alignant les dynamiques pilotées par l'audio sur l'ensemble de la scène, incluant le portrait de référence, les objets contextuels et l'arrière-plan. Dans la seconde étape, nous affinons les mouvements des lèvres au niveau des images en utilisant un masque de traçage labial, assurant une synchronisation précise avec les signaux audio. Pour préserver l'identité sans compromettre la flexibilité du mouvement, nous remplaçons le réseau de référence couramment utilisé par un module d'attention croisée centré sur le visage, qui maintient efficacement la cohérence faciale tout au long de la vidéo. De plus, nous intégrons un module de modulation de l'intensité du mouvement qui contrôle explicitement l'intensité des expressions et des mouvements corporels, permettant une manipulation contrôlée des mouvements du portrait au-delà du simple mouvement des lèvres. Les résultats expérimentaux approfondis montrent que notre approche proposée atteint une qualité supérieure avec un meilleur réalisme, une meilleure cohérence, une intensité de mouvement et une préservation de l'identité. Notre page de projet : https://fantasy-amap.github.io/fantasy-talking/.
English
Creating a realistic animatable avatar from a single static portrait remains
challenging. Existing approaches often struggle to capture subtle facial
expressions, the associated global body movements, and the dynamic background.
To address these limitations, we propose a novel framework that leverages a
pretrained video diffusion transformer model to generate high-fidelity,
coherent talking portraits with controllable motion dynamics. At the core of
our work is a dual-stage audio-visual alignment strategy. In the first stage,
we employ a clip-level training scheme to establish coherent global motion by
aligning audio-driven dynamics across the entire scene, including the reference
portrait, contextual objects, and background. In the second stage, we refine
lip movements at the frame level using a lip-tracing mask, ensuring precise
synchronization with audio signals. To preserve identity without compromising
motion flexibility, we replace the commonly used reference network with a
facial-focused cross-attention module that effectively maintains facial
consistency throughout the video. Furthermore, we integrate a motion intensity
modulation module that explicitly controls expression and body motion
intensity, enabling controllable manipulation of portrait movements beyond mere
lip motion. Extensive experimental results show that our proposed approach
achieves higher quality with better realism, coherence, motion intensity, and
identity preservation. Ours project page:
https://fantasy-amap.github.io/fantasy-talking/.