FantasyTalking: Realistische Talking-Portrait-Generierung durch kohärente Bewegungsynthese
FantasyTalking: Realistic Talking Portrait Generation via Coherent Motion Synthesis
April 7, 2025
Autoren: Mengchao Wang, Qiang Wang, Fan Jiang, Yaqi Fan, Yunpeng Zhang, Yonggang Qi, Kun Zhao, Mu Xu
cs.AI
Zusammenfassung
Die Erstellung eines realistischen, animierbaren Avatars aus einem einzigen statischen Porträt bleibt eine Herausforderung. Bestehende Ansätze haben oft Schwierigkeiten, subtile Gesichtsausdrücke, die damit verbundenen globalen Körperbewegungen und den dynamischen Hintergrund zu erfassen. Um diese Einschränkungen zu überwinden, schlagen wir ein neuartiges Framework vor, das ein vortrainiertes Video-Diffusions-Transformer-Modell nutzt, um hochwertige, kohärente sprechende Porträts mit kontrollierbaren Bewegungsdynamiken zu erzeugen. Kern unserer Arbeit ist eine zweistufige Audio-Visual-Alignment-Strategie. In der ersten Stufe verwenden wir ein Clip-Level-Trainingsschema, um kohärente globale Bewegungen durch die Ausrichtung der audio-gesteuerten Dynamik über die gesamte Szene hinweg zu etablieren, einschließlich des Referenzporträts, kontextueller Objekte und des Hintergrunds. In der zweiten Stufe verfeinern wir die Lippenbewegungen auf Frame-Ebene mithilfe einer Lippenverfolgungsmaske, um eine präzise Synchronisation mit den Audiosignalen zu gewährleisten. Um die Identität zu bewahren, ohne die Bewegungsflexibilität zu beeinträchtigen, ersetzen wir das häufig verwendete Referenznetzwerk durch ein gesichtsorientiertes Cross-Attention-Modul, das effektiv die Gesichtskonsistenz im gesamten Video aufrechterhält. Darüber hinaus integrieren wir ein Modul zur Modulation der Bewegungsintensität, das explizit die Intensität von Ausdruck und Körperbewegungen steuert und so eine kontrollierbare Manipulation der Porträtbewegungen über die reine Lippenbewegung hinaus ermöglicht. Umfangreiche experimentelle Ergebnisse zeigen, dass unser vorgeschlagener Ansatz eine höhere Qualität mit besserem Realismus, Kohärenz, Bewegungsintensität und Identitätserhaltung erreicht. Unsere Projektseite: https://fantasy-amap.github.io/fantasy-talking/.
English
Creating a realistic animatable avatar from a single static portrait remains
challenging. Existing approaches often struggle to capture subtle facial
expressions, the associated global body movements, and the dynamic background.
To address these limitations, we propose a novel framework that leverages a
pretrained video diffusion transformer model to generate high-fidelity,
coherent talking portraits with controllable motion dynamics. At the core of
our work is a dual-stage audio-visual alignment strategy. In the first stage,
we employ a clip-level training scheme to establish coherent global motion by
aligning audio-driven dynamics across the entire scene, including the reference
portrait, contextual objects, and background. In the second stage, we refine
lip movements at the frame level using a lip-tracing mask, ensuring precise
synchronization with audio signals. To preserve identity without compromising
motion flexibility, we replace the commonly used reference network with a
facial-focused cross-attention module that effectively maintains facial
consistency throughout the video. Furthermore, we integrate a motion intensity
modulation module that explicitly controls expression and body motion
intensity, enabling controllable manipulation of portrait movements beyond mere
lip motion. Extensive experimental results show that our proposed approach
achieves higher quality with better realism, coherence, motion intensity, and
identity preservation. Ours project page:
https://fantasy-amap.github.io/fantasy-talking/.Summary
AI-Generated Summary