ChatPaper.aiChatPaper

FantasyTalking: Generación Realista de Retratos Parlantes mediante Síntesis de Movimiento Coherente

FantasyTalking: Realistic Talking Portrait Generation via Coherent Motion Synthesis

April 7, 2025
Autores: Mengchao Wang, Qiang Wang, Fan Jiang, Yaqi Fan, Yunpeng Zhang, Yonggang Qi, Kun Zhao, Mu Xu
cs.AI

Resumen

Crear un avatar animado realista a partir de un único retrato estático sigue siendo un desafío. Los enfoques existentes a menudo tienen dificultades para capturar expresiones faciales sutiles, los movimientos corporales globales asociados y el fondo dinámico. Para abordar estas limitaciones, proponemos un marco novedoso que aprovecha un modelo de transformador de difusión de video preentrenado para generar retratos parlantes de alta fidelidad y coherentes con dinámicas de movimiento controlables. En el núcleo de nuestro trabajo se encuentra una estrategia de alineación audiovisual de dos etapas. En la primera etapa, empleamos un esquema de entrenamiento a nivel de clip para establecer un movimiento global coherente al alinear las dinámicas impulsadas por el audio en toda la escena, incluyendo el retrato de referencia, los objetos contextuales y el fondo. En la segunda etapa, refinamos los movimientos de los labios a nivel de fotograma utilizando una máscara de seguimiento labial, asegurando una sincronización precisa con las señales de audio. Para preservar la identidad sin comprometer la flexibilidad del movimiento, reemplazamos la red de referencia comúnmente utilizada con un módulo de atención cruzada centrado en el rostro que mantiene eficazmente la consistencia facial a lo largo del video. Además, integramos un módulo de modulación de intensidad de movimiento que controla explícitamente la intensidad de las expresiones y los movimientos corporales, permitiendo una manipulación controlable de los movimientos del retrato más allá del mero movimiento labial. Los resultados experimentales extensivos muestran que nuestro enfoque propuesto logra una mayor calidad con mejor realismo, coherencia, intensidad de movimiento y preservación de la identidad. Nuestra página del proyecto: https://fantasy-amap.github.io/fantasy-talking/.
English
Creating a realistic animatable avatar from a single static portrait remains challenging. Existing approaches often struggle to capture subtle facial expressions, the associated global body movements, and the dynamic background. To address these limitations, we propose a novel framework that leverages a pretrained video diffusion transformer model to generate high-fidelity, coherent talking portraits with controllable motion dynamics. At the core of our work is a dual-stage audio-visual alignment strategy. In the first stage, we employ a clip-level training scheme to establish coherent global motion by aligning audio-driven dynamics across the entire scene, including the reference portrait, contextual objects, and background. In the second stage, we refine lip movements at the frame level using a lip-tracing mask, ensuring precise synchronization with audio signals. To preserve identity without compromising motion flexibility, we replace the commonly used reference network with a facial-focused cross-attention module that effectively maintains facial consistency throughout the video. Furthermore, we integrate a motion intensity modulation module that explicitly controls expression and body motion intensity, enabling controllable manipulation of portrait movements beyond mere lip motion. Extensive experimental results show that our proposed approach achieves higher quality with better realism, coherence, motion intensity, and identity preservation. Ours project page: https://fantasy-amap.github.io/fantasy-talking/.

Summary

AI-Generated Summary

PDF353April 10, 2025