MEMO: Geheugen-Gestuurde Diffusie voor het Genereren van Expressieve Praatvideo's
MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation
December 5, 2024
Auteurs: Longtao Zheng, Yifan Zhang, Hanzhong Guo, Jiachun Pan, Zhenxiong Tan, Jiahao Lu, Chuanxin Tang, Bo An, Shuicheng Yan
cs.AI
Samenvatting
Recente ontwikkelingen in video diffusiemodellen hebben nieuwe mogelijkheden ontsloten voor realistische audio-gestuurde pratende videogeneratie. Het naadloos synchroniseren van audio en lippen, het behouden van identiteitsconsistentie op lange termijn en het produceren van natuurlijke, audio-uitgelijnde uitdrukkingen in gegenereerde pratende video's blijven echter aanzienlijke uitdagingen. Om deze uitdagingen aan te pakken, stellen we Memory-geleide EMOtie-bewuste diffusie (MEMO) voor, een end-to-end audio-gestuurde portretanimatiebenadering om identiteitsconsistente en expressieve pratende video's te genereren. Onze aanpak is gebaseerd op twee belangrijke modules: (1) een geheugen-geleide temporale module, die de identiteitsconsistentie op lange termijn en de bewegingssmoothness verbetert door geheugenstaten te ontwikkelen om informatie uit een langer verleden op te slaan om temporale modellering te begeleiden via lineaire aandacht; en (2) een emotie-bewuste audio module, die traditionele kruisaandacht vervangt door multimodale aandacht om de audio-video interactie te verbeteren, terwijl emoties worden gedetecteerd uit audio om gezichtsuitdrukkingen te verfijnen via emotie-adaptieve laagnormering. Uitgebreide kwantitatieve en kwalitatieve resultaten tonen aan dat MEMO realistischere pratende video's genereert over diverse beeld- en audiotype, waarbij het de state-of-the-art methoden overtreft op het gebied van algehele kwaliteit, audio-lip synchronisatie, identiteitsconsistentie en expressie-emotie uitlijning.
English
Recent advances in video diffusion models have unlocked new potential for
realistic audio-driven talking video generation. However, achieving seamless
audio-lip synchronization, maintaining long-term identity consistency, and
producing natural, audio-aligned expressions in generated talking videos remain
significant challenges. To address these challenges, we propose Memory-guided
EMOtion-aware diffusion (MEMO), an end-to-end audio-driven portrait animation
approach to generate identity-consistent and expressive talking videos. Our
approach is built around two key modules: (1) a memory-guided temporal module,
which enhances long-term identity consistency and motion smoothness by
developing memory states to store information from a longer past context to
guide temporal modeling via linear attention; and (2) an emotion-aware audio
module, which replaces traditional cross attention with multi-modal attention
to enhance audio-video interaction, while detecting emotions from audio to
refine facial expressions via emotion adaptive layer norm. Extensive
quantitative and qualitative results demonstrate that MEMO generates more
realistic talking videos across diverse image and audio types, outperforming
state-of-the-art methods in overall quality, audio-lip synchronization,
identity consistency, and expression-emotion alignment.