FantasyTalking: Generazione Realistica di Ritratti Parlanti tramite Sintesi di Movimento Coerente
FantasyTalking: Realistic Talking Portrait Generation via Coherent Motion Synthesis
April 7, 2025
Autori: Mengchao Wang, Qiang Wang, Fan Jiang, Yaqi Fan, Yunpeng Zhang, Yonggang Qi, Kun Zhao, Mu Xu
cs.AI
Abstract
Creare un avatar animato realistico a partire da un singolo ritratto statico rimane una sfida significativa. Gli approcci esistenti spesso incontrano difficoltà nel catturare le espressioni facciali sottili, i movimenti globali del corpo associati e lo sfondo dinamico. Per affrontare queste limitazioni, proponiamo un nuovo framework che sfrutta un modello di trasformazione a diffusione video pre-addestrato per generare ritratti parlanti ad alta fedeltà e coerenti, con dinamiche di movimento controllabili. Al centro del nostro lavoro c'è una strategia di allineamento audio-visivo a due stadi. Nel primo stadio, utilizziamo uno schema di addestramento a livello di clip per stabilire un movimento globale coerente, allineando le dinamiche guidate dall'audio in tutta la scena, inclusi il ritratto di riferimento, gli oggetti contestuali e lo sfondo. Nel secondo stadio, perfezioniamo i movimenti delle labbra a livello di fotogramma utilizzando una maschera di tracciamento labiale, garantendo una sincronizzazione precisa con i segnali audio. Per preservare l'identità senza compromettere la flessibilità del movimento, sostituiamo la comunemente usata rete di riferimento con un modulo di cross-attention focalizzato sul volto, che mantiene efficacemente la coerenza facciale durante tutto il video. Inoltre, integriamo un modulo di modulazione dell'intensità del movimento che controlla esplicitamente l'intensità delle espressioni e dei movimenti del corpo, consentendo una manipolazione controllata dei movimenti del ritratto oltre il semplice movimento delle labbra. I risultati sperimentali estesi dimostrano che il nostro approccio proposto raggiunge una qualità superiore con un maggiore realismo, coerenza, intensità del movimento e preservazione dell'identità. La nostra pagina del progetto: https://fantasy-amap.github.io/fantasy-talking/.
English
Creating a realistic animatable avatar from a single static portrait remains
challenging. Existing approaches often struggle to capture subtle facial
expressions, the associated global body movements, and the dynamic background.
To address these limitations, we propose a novel framework that leverages a
pretrained video diffusion transformer model to generate high-fidelity,
coherent talking portraits with controllable motion dynamics. At the core of
our work is a dual-stage audio-visual alignment strategy. In the first stage,
we employ a clip-level training scheme to establish coherent global motion by
aligning audio-driven dynamics across the entire scene, including the reference
portrait, contextual objects, and background. In the second stage, we refine
lip movements at the frame level using a lip-tracing mask, ensuring precise
synchronization with audio signals. To preserve identity without compromising
motion flexibility, we replace the commonly used reference network with a
facial-focused cross-attention module that effectively maintains facial
consistency throughout the video. Furthermore, we integrate a motion intensity
modulation module that explicitly controls expression and body motion
intensity, enabling controllable manipulation of portrait movements beyond mere
lip motion. Extensive experimental results show that our proposed approach
achieves higher quality with better realism, coherence, motion intensity, and
identity preservation. Ours project page:
https://fantasy-amap.github.io/fantasy-talking/.Summary
AI-Generated Summary