FantasyTalking : Génération réaliste de portraits parlants via une synthèse cohérente des mouvements

papers.abstract

Créer un avatar animé réaliste à partir d'un simple portrait statique reste un défi. Les approches existantes peinent souvent à capturer les expressions faciales subtiles, les mouvements corporels globaux associés et l'arrière-plan dynamique. Pour surmonter ces limitations, nous proposons un nouveau cadre qui exploite un modèle de transformateur de diffusion vidéo pré-entraîné pour générer des portraits parlants de haute fidélité et cohérents, avec des dynamiques de mouvement contrôlables. Au cœur de notre travail se trouve une stratégie d'alignement audio-visuel en deux étapes. Dans la première étape, nous utilisons un schéma d'entraînement au niveau des clips pour établir un mouvement global cohérent en alignant les dynamiques pilotées par l'audio sur l'ensemble de la scène, incluant le portrait de référence, les objets contextuels et l'arrière-plan. Dans la seconde étape, nous affinons les mouvements des lèvres au niveau des images en utilisant un masque de traçage labial, assurant une synchronisation précise avec les signaux audio. Pour préserver l'identité sans compromettre la flexibilité du mouvement, nous remplaçons le réseau de référence couramment utilisé par un module d'attention croisée centré sur le visage, qui maintient efficacement la cohérence faciale tout au long de la vidéo. De plus, nous intégrons un module de modulation de l'intensité du mouvement qui contrôle explicitement l'intensité des expressions et des mouvements corporels, permettant une manipulation contrôlée des mouvements du portrait au-delà du simple mouvement des lèvres. Les résultats expérimentaux approfondis montrent que notre approche proposée atteint une qualité supérieure avec un meilleur réalisme, une meilleure cohérence, une intensité de mouvement et une préservation de l'identité. Notre page de projet : https://fantasy-amap.github.io/fantasy-talking/.

English

Creating a realistic animatable avatar from a single static portrait remains challenging. Existing approaches often struggle to capture subtle facial expressions, the associated global body movements, and the dynamic background. To address these limitations, we propose a novel framework that leverages a pretrained video diffusion transformer model to generate high-fidelity, coherent talking portraits with controllable motion dynamics. At the core of our work is a dual-stage audio-visual alignment strategy. In the first stage, we employ a clip-level training scheme to establish coherent global motion by aligning audio-driven dynamics across the entire scene, including the reference portrait, contextual objects, and background. In the second stage, we refine lip movements at the frame level using a lip-tracing mask, ensuring precise synchronization with audio signals. To preserve identity without compromising motion flexibility, we replace the commonly used reference network with a facial-focused cross-attention module that effectively maintains facial consistency throughout the video. Furthermore, we integrate a motion intensity modulation module that explicitly controls expression and body motion intensity, enabling controllable manipulation of portrait movements beyond mere lip motion. Extensive experimental results show that our proposed approach achieves higher quality with better realism, coherence, motion intensity, and identity preservation. Ours project page: https://fantasy-amap.github.io/fantasy-talking/.

FantasyTalking : Génération réaliste de portraits parlants via une synthèse cohérente des mouvements

FantasyTalking: Realistic Talking Portrait Generation via Coherent Motion Synthesis

papers.abstract

Support