MEMO: Difusão Guiada por Memória para Geração de Vídeos de Fala Expressiva
MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation
December 5, 2024
Autores: Longtao Zheng, Yifan Zhang, Hanzhong Guo, Jiachun Pan, Zhenxiong Tan, Jiahao Lu, Chuanxin Tang, Bo An, Shuicheng Yan
cs.AI
Resumo
Os avanços recentes em modelos de difusão de vídeo desbloquearam um novo potencial para a geração realista de vídeos falantes impulsionados por áudio. No entanto, alcançar uma sincronização áudio-labial perfeita, manter consistência de identidade a longo prazo e produzir expressões naturais e alinhadas com áudio em vídeos falantes gerados continuam sendo desafios significativos. Para enfrentar esses desafios, propomos a difusão orientada por memória e consciente de emoções (MEMO), uma abordagem de animação de retrato impulsionada por áudio de ponta a ponta para gerar vídeos falantes consistentes em identidade e expressivos. Nossa abordagem é construída em torno de dois módulos-chave: (1) um módulo temporal orientado por memória, que aprimora a consistência de identidade a longo prazo e a suavidade de movimento desenvolvendo estados de memória para armazenar informações de um contexto passado mais longo para orientar a modelagem temporal via atenção linear; e (2) um módulo de áudio consciente de emoções, que substitui a atenção cruzada tradicional por atenção multimodal para aprimorar a interação áudio-vídeo, enquanto detecta emoções a partir do áudio para refinar expressões faciais por meio de camada de normalização adaptativa de emoção. Resultados extensivos quantitativos e qualitativos demonstram que o MEMO gera vídeos falantes mais realistas em diversos tipos de imagem e áudio, superando os métodos de ponta em qualidade geral, sincronização áudio-labial, consistência de identidade e alinhamento entre expressão e emoção.
English
Recent advances in video diffusion models have unlocked new potential for
realistic audio-driven talking video generation. However, achieving seamless
audio-lip synchronization, maintaining long-term identity consistency, and
producing natural, audio-aligned expressions in generated talking videos remain
significant challenges. To address these challenges, we propose Memory-guided
EMOtion-aware diffusion (MEMO), an end-to-end audio-driven portrait animation
approach to generate identity-consistent and expressive talking videos. Our
approach is built around two key modules: (1) a memory-guided temporal module,
which enhances long-term identity consistency and motion smoothness by
developing memory states to store information from a longer past context to
guide temporal modeling via linear attention; and (2) an emotion-aware audio
module, which replaces traditional cross attention with multi-modal attention
to enhance audio-video interaction, while detecting emotions from audio to
refine facial expressions via emotion adaptive layer norm. Extensive
quantitative and qualitative results demonstrate that MEMO generates more
realistic talking videos across diverse image and audio types, outperforming
state-of-the-art methods in overall quality, audio-lip synchronization,
identity consistency, and expression-emotion alignment.Summary
AI-Generated Summary