ЗАМЕТКА: Память-управляемая диффузия для генерации выразительного видео с речью.
MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation
December 5, 2024
Авторы: Longtao Zheng, Yifan Zhang, Hanzhong Guo, Jiachun Pan, Zhenxiong Tan, Jiahao Lu, Chuanxin Tang, Bo An, Shuicheng Yan
cs.AI
Аннотация
Недавние достижения в моделях видеодиффузии открыли новые возможности для реалистичной генерации аудио-управляемых видеороликов с разговорами. Однако достижение плавной синхронизации аудио и губ, поддержание долгосрочной согласованности личности и создание естественных, аудио-выравненных выражений в созданных видеороликах с разговорами остаются значительными вызовами. Для решения этих проблем мы предлагаем модель Memory-guided EMOtion-aware diffusion (MEMO), подход к генерации аудио-управляемой анимации портрета с учетом эмоций для создания согласованных личностей и выразительных видеороликов с разговорами. Наш подход построен вокруг двух ключевых модулей: (1) модуль временной памяти с управлением, который улучшает долгосрочную согласованность личности и плавность движения путем развития памятных состояний для хранения информации из более длительного контекста прошлого для направления временного моделирования с помощью линейного внимания; и (2) эмоциональный аудио-модуль, который заменяет традиционное кросс-внимание многомодальным вниманием для улучшения взаимодействия аудио-видео, одновременно обнаруживая эмоции из аудио для уточнения лицевых выражений через эмоционально-адаптивное слоенормирование. Обширные количественные и качественные результаты показывают, что MEMO генерирует более реалистичные видеоролики с разговорами по различным типам изображений и аудио, превосходя современные методы по общему качеству, синхронизации аудио и губ, согласованности личности и соответствию выражений и эмоций.
English
Recent advances in video diffusion models have unlocked new potential for
realistic audio-driven talking video generation. However, achieving seamless
audio-lip synchronization, maintaining long-term identity consistency, and
producing natural, audio-aligned expressions in generated talking videos remain
significant challenges. To address these challenges, we propose Memory-guided
EMOtion-aware diffusion (MEMO), an end-to-end audio-driven portrait animation
approach to generate identity-consistent and expressive talking videos. Our
approach is built around two key modules: (1) a memory-guided temporal module,
which enhances long-term identity consistency and motion smoothness by
developing memory states to store information from a longer past context to
guide temporal modeling via linear attention; and (2) an emotion-aware audio
module, which replaces traditional cross attention with multi-modal attention
to enhance audio-video interaction, while detecting emotions from audio to
refine facial expressions via emotion adaptive layer norm. Extensive
quantitative and qualitative results demonstrate that MEMO generates more
realistic talking videos across diverse image and audio types, outperforming
state-of-the-art methods in overall quality, audio-lip synchronization,
identity consistency, and expression-emotion alignment.Summary
AI-Generated Summary