FantasyTalking: Realistische Portretanimatie via Samenhangende Bewegingssynthese
FantasyTalking: Realistic Talking Portrait Generation via Coherent Motion Synthesis
April 7, 2025
Auteurs: Mengchao Wang, Qiang Wang, Fan Jiang, Yaqi Fan, Yunpeng Zhang, Yonggang Qi, Kun Zhao, Mu Xu
cs.AI
Samenvatting
Het creëren van een realistisch animeerbaar avatar vanuit een enkel statisch portret blijft een uitdaging. Bestaande methoden hebben vaak moeite met het vastleggen van subtiele gezichtsuitdrukkingen, de bijbehorende globale lichaamsbewegingen en de dynamische achtergrond. Om deze beperkingen aan te pakken, stellen we een nieuw framework voor dat gebruikmaakt van een vooraf getraind video-diffusie transformermodel om hoogwaardige, samenhangende pratende portretten te genereren met controleerbare bewegingsdynamiek. De kern van ons werk bestaat uit een tweestaps audio-visuele uitlijningsstrategie. In de eerste fase gebruiken we een clip-niveau trainingsschema om samenhangende globale beweging te creëren door audio-gestuurde dynamiek over de hele scène uit te lijnen, inclusief het referentieportret, contextuele objecten en de achtergrond. In de tweede fase verfijnen we lipbewegingen op frameniveau met behulp van een lip-tracing masker, waardoor precieze synchronisatie met audiosignalen wordt gegarandeerd. Om identiteit te behouden zonder de bewegingsflexibiliteit aan te tasten, vervangen we het veelgebruikte referentienetwerk door een gezichtsgerichte cross-attention module die effectief gezichtsconsistentie gedurende de video behoudt. Bovendien integreren we een bewegingsintensiteitsmodulatiemodule die expliciet de intensiteit van expressie en lichaamsbeweging controleert, waardoor controleerbare manipulatie van portretbewegingen mogelijk wordt die verder gaat dan alleen lipbeweging. Uitgebreide experimentele resultaten tonen aan dat onze voorgestelde aanpak een hogere kwaliteit bereikt met betere realisme, samenhang, bewegingsintensiteit en identiteitsbehoud. Onze projectpagina: https://fantasy-amap.github.io/fantasy-talking/.
English
Creating a realistic animatable avatar from a single static portrait remains
challenging. Existing approaches often struggle to capture subtle facial
expressions, the associated global body movements, and the dynamic background.
To address these limitations, we propose a novel framework that leverages a
pretrained video diffusion transformer model to generate high-fidelity,
coherent talking portraits with controllable motion dynamics. At the core of
our work is a dual-stage audio-visual alignment strategy. In the first stage,
we employ a clip-level training scheme to establish coherent global motion by
aligning audio-driven dynamics across the entire scene, including the reference
portrait, contextual objects, and background. In the second stage, we refine
lip movements at the frame level using a lip-tracing mask, ensuring precise
synchronization with audio signals. To preserve identity without compromising
motion flexibility, we replace the commonly used reference network with a
facial-focused cross-attention module that effectively maintains facial
consistency throughout the video. Furthermore, we integrate a motion intensity
modulation module that explicitly controls expression and body motion
intensity, enabling controllable manipulation of portrait movements beyond mere
lip motion. Extensive experimental results show that our proposed approach
achieves higher quality with better realism, coherence, motion intensity, and
identity preservation. Ours project page:
https://fantasy-amap.github.io/fantasy-talking/.