NOTE : Diffusion Guidée par la Mémoire pour la Génération de Vidéos Parlantes Expressives
MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation
December 5, 2024
Auteurs: Longtao Zheng, Yifan Zhang, Hanzhong Guo, Jiachun Pan, Zhenxiong Tan, Jiahao Lu, Chuanxin Tang, Bo An, Shuicheng Yan
cs.AI
Résumé
Les récents progrès dans les modèles de diffusion vidéo ont ouvert de nouvelles perspectives pour la génération réaliste de vidéos parlantes pilotées par l'audio. Cependant, parvenir à une synchronisation audio-lèvres sans faille, maintenir une cohérence d'identité à long terme et produire des expressions naturelles et alignées sur l'audio dans les vidéos parlantes générées restent des défis importants. Pour relever ces défis, nous proposons MEMO (Memory-guided EMOtion-aware diffusion), une approche d'animation de portrait pilotée par l'audio de bout en bout pour générer des vidéos parlantes cohérentes en termes d'identité et expressives. Notre approche repose sur deux modules clés : (1) un module temporel guidé par la mémoire, qui améliore la cohérence d'identité à long terme et la fluidité du mouvement en développant des états de mémoire pour stocker des informations d'un contexte passé plus long afin de guider la modélisation temporelle via une attention linéaire ; et (2) un module audio conscient des émotions, qui remplace l'attention croisée traditionnelle par une attention multi-modale pour améliorer l'interaction audio-vidéo, tout en détectant les émotions à partir de l'audio pour affiner les expressions faciales via une normalisation de couche adaptative aux émotions. Des résultats quantitatifs et qualitatifs approfondis démontrent que MEMO génère des vidéos parlantes plus réalistes à travers divers types d'images et d'audio, surpassant les méthodes de pointe en termes de qualité globale, de synchronisation audio-lèvres, de cohérence d'identité et d'alignement expression-émotion.
English
Recent advances in video diffusion models have unlocked new potential for
realistic audio-driven talking video generation. However, achieving seamless
audio-lip synchronization, maintaining long-term identity consistency, and
producing natural, audio-aligned expressions in generated talking videos remain
significant challenges. To address these challenges, we propose Memory-guided
EMOtion-aware diffusion (MEMO), an end-to-end audio-driven portrait animation
approach to generate identity-consistent and expressive talking videos. Our
approach is built around two key modules: (1) a memory-guided temporal module,
which enhances long-term identity consistency and motion smoothness by
developing memory states to store information from a longer past context to
guide temporal modeling via linear attention; and (2) an emotion-aware audio
module, which replaces traditional cross attention with multi-modal attention
to enhance audio-video interaction, while detecting emotions from audio to
refine facial expressions via emotion adaptive layer norm. Extensive
quantitative and qualitative results demonstrate that MEMO generates more
realistic talking videos across diverse image and audio types, outperforming
state-of-the-art methods in overall quality, audio-lip synchronization,
identity consistency, and expression-emotion alignment.Summary
AI-Generated Summary