FantasyTalking: Geração Realista de Retratos Falantes através de Síntese de Movimento Coerente
FantasyTalking: Realistic Talking Portrait Generation via Coherent Motion Synthesis
April 7, 2025
Autores: Mengchao Wang, Qiang Wang, Fan Jiang, Yaqi Fan, Yunpeng Zhang, Yonggang Qi, Kun Zhao, Mu Xu
cs.AI
Resumo
Criar um avatar animado realista a partir de um único retrato estático continua sendo um desafio. As abordagens existentes frequentemente têm dificuldade em capturar expressões faciais sutis, os movimentos corporais globais associados e o fundo dinâmico. Para superar essas limitações, propomos uma nova estrutura que aproveita um modelo de transformador de difusão de vídeo pré-treinado para gerar retratos falantes de alta fidelidade e coerentes, com dinâmicas de movimento controláveis. No cerne do nosso trabalho está uma estratégia de alinhamento áudio-visual em duas etapas. Na primeira etapa, empregamos um esquema de treinamento em nível de clipe para estabelecer movimento global coerente, alinhando as dinâmicas impulsionadas pelo áudio em toda a cena, incluindo o retrato de referência, objetos contextuais e o fundo. Na segunda etapa, refinamos os movimentos labiais em nível de quadro usando uma máscara de rastreamento labial, garantindo sincronização precisa com os sinais de áudio. Para preservar a identidade sem comprometer a flexibilidade de movimento, substituímos a rede de referência comumente usada por um módulo de atenção cruzada focado no rosto, que mantém efetivamente a consistência facial ao longo do vídeo. Além disso, integramos um módulo de modulação de intensidade de movimento que controla explicitamente a intensidade das expressões e dos movimentos corporais, permitindo a manipulação controlada dos movimentos do retrato além do mero movimento labial. Resultados experimentais extensivos mostram que nossa abordagem proposta alcança maior qualidade com melhor realismo, coerência, intensidade de movimento e preservação de identidade. Nossa página do projeto: https://fantasy-amap.github.io/fantasy-talking/.
English
Creating a realistic animatable avatar from a single static portrait remains
challenging. Existing approaches often struggle to capture subtle facial
expressions, the associated global body movements, and the dynamic background.
To address these limitations, we propose a novel framework that leverages a
pretrained video diffusion transformer model to generate high-fidelity,
coherent talking portraits with controllable motion dynamics. At the core of
our work is a dual-stage audio-visual alignment strategy. In the first stage,
we employ a clip-level training scheme to establish coherent global motion by
aligning audio-driven dynamics across the entire scene, including the reference
portrait, contextual objects, and background. In the second stage, we refine
lip movements at the frame level using a lip-tracing mask, ensuring precise
synchronization with audio signals. To preserve identity without compromising
motion flexibility, we replace the commonly used reference network with a
facial-focused cross-attention module that effectively maintains facial
consistency throughout the video. Furthermore, we integrate a motion intensity
modulation module that explicitly controls expression and body motion
intensity, enabling controllable manipulation of portrait movements beyond mere
lip motion. Extensive experimental results show that our proposed approach
achieves higher quality with better realism, coherence, motion intensity, and
identity preservation. Ours project page:
https://fantasy-amap.github.io/fantasy-talking/.