ChatPaper.aiChatPaper

MEMO: Difusión Guiada por Memoria para la Generación de Videos Hablados Expresivos

MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation

December 5, 2024
Autores: Longtao Zheng, Yifan Zhang, Hanzhong Guo, Jiachun Pan, Zhenxiong Tan, Jiahao Lu, Chuanxin Tang, Bo An, Shuicheng Yan
cs.AI

Resumen

Los recientes avances en modelos de difusión de video han desbloqueado un nuevo potencial para la generación realista de videos hablados impulsados por audio. Sin embargo, lograr una sincronización audio-labial fluida, mantener una consistencia de identidad a largo plazo y producir expresiones naturales y alineadas con el audio en videos hablados generados siguen siendo desafíos significativos. Para abordar estos desafíos, proponemos MEMO (Memoria guiada Difusión Consciente de Emociones), un enfoque de animación de retratos impulsado por audio de extremo a extremo para generar videos hablados consistentes en identidad y expresivos. Nuestro enfoque se basa en dos módulos clave: (1) un módulo temporal guiado por memoria, que mejora la consistencia de identidad a largo plazo y la suavidad del movimiento mediante el desarrollo de estados de memoria para almacenar información de un contexto pasado más largo para guiar la modelización temporal a través de atención lineal; y (2) un módulo de audio consciente de emociones, que reemplaza la atención cruzada tradicional con atención multimodal para mejorar la interacción audio-video, al tiempo que detecta emociones del audio para refinar las expresiones faciales a través de una capa de normalización adaptativa a las emociones. Resultados extensos cuantitativos y cualitativos demuestran que MEMO genera videos hablados más realistas en diversos tipos de imágenes y audio, superando a los métodos de vanguardia en calidad general, sincronización audio-labial, consistencia de identidad y alineación de expresión-emoción.
English
Recent advances in video diffusion models have unlocked new potential for realistic audio-driven talking video generation. However, achieving seamless audio-lip synchronization, maintaining long-term identity consistency, and producing natural, audio-aligned expressions in generated talking videos remain significant challenges. To address these challenges, we propose Memory-guided EMOtion-aware diffusion (MEMO), an end-to-end audio-driven portrait animation approach to generate identity-consistent and expressive talking videos. Our approach is built around two key modules: (1) a memory-guided temporal module, which enhances long-term identity consistency and motion smoothness by developing memory states to store information from a longer past context to guide temporal modeling via linear attention; and (2) an emotion-aware audio module, which replaces traditional cross attention with multi-modal attention to enhance audio-video interaction, while detecting emotions from audio to refine facial expressions via emotion adaptive layer norm. Extensive quantitative and qualitative results demonstrate that MEMO generates more realistic talking videos across diverse image and audio types, outperforming state-of-the-art methods in overall quality, audio-lip synchronization, identity consistency, and expression-emotion alignment.

Summary

AI-Generated Summary

PDF102December 6, 2024