DREAM-Talk: Диффузионный метод генерации реалистичных говорящих лиц на основе эмоционального аудио для одиночных изображений
DREAM-Talk: Diffusion-based Realistic Emotional Audio-driven Method for Single Image Talking Face Generation
December 21, 2023
Авторы: Chenxu Zhang, Chao Wang, Jianfeng Zhang, Hongyi Xu, Guoxian Song, You Xie, Linjie Luo, Yapeng Tian, Xiaohu Guo, Jiashi Feng
cs.AI
Аннотация
Генерация эмоционально выразительных говорящих лиц на основе одного портретного изображения остается серьезной задачей. Одновременное достижение выразительного эмоционального разговора и точной синхронизации губ особенно сложно, так как выразительность часто жертвуется ради точности синхронизации. Как широко используется во многих предыдущих работах, сеть LSTM часто не способна уловить тонкости и вариации эмоциональных выражений. Для решения этих проблем мы представляем DREAM-Talk, двухэтапную аудио-управляемую диффузионную систему, разработанную для одновременной генерации разнообразных выражений и точной синхронизации губ. На первом этапе мы предлагаем EmoDiff, новый диффузионный модуль, который генерирует разнообразные, высокодинамичные эмоциональные выражения и позы головы в соответствии с аудио и заданным эмоциональным стилем. Учитывая сильную корреляцию между движением губ и аудио, мы затем уточняем динамику с повышенной точностью синхронизации губ, используя аудио-характеристики и эмоциональный стиль. Для этого мы применяем модуль видео-к-видео рендеринга, чтобы перенести выражения и движения губ с нашего прокси-3D аватара на произвольный портрет. Как количественно, так и качественно, DREAM-Talk превосходит современные методы по выразительности, точности синхронизации губ и воспринимаемому качеству.
English
The generation of emotional talking faces from a single portrait image
remains a significant challenge. The simultaneous achievement of expressive
emotional talking and accurate lip-sync is particularly difficult, as
expressiveness is often compromised for the accuracy of lip-sync. As widely
adopted by many prior works, the LSTM network often fails to capture the
subtleties and variations of emotional expressions. To address these
challenges, we introduce DREAM-Talk, a two-stage diffusion-based audio-driven
framework, tailored for generating diverse expressions and accurate lip-sync
concurrently. In the first stage, we propose EmoDiff, a novel diffusion module
that generates diverse highly dynamic emotional expressions and head poses in
accordance with the audio and the referenced emotion style. Given the strong
correlation between lip motion and audio, we then refine the dynamics with
enhanced lip-sync accuracy using audio features and emotion style. To this end,
we deploy a video-to-video rendering module to transfer the expressions and lip
motions from our proxy 3D avatar to an arbitrary portrait. Both quantitatively
and qualitatively, DREAM-Talk outperforms state-of-the-art methods in terms of
expressiveness, lip-sync accuracy and perceptual quality.