DreamTalk: Когда генерация выразительных говорящих голов встречается с диффузионными вероятностными моделями

Аннотация

Диффузионные модели продемонстрировали впечатляющие успехи в различных генеративных задачах, однако их потенциал в важной и сложной области создания выразительных говорящих голов остается недостаточно изученным. В данной работе мы предлагаем фреймворк DreamTalk, который призван заполнить этот пробел, используя тщательно продуманный дизайн для раскрытия возможностей диффузионных моделей в генерации выразительных говорящих голов. В частности, DreamTalk состоит из трех ключевых компонентов: сети для удаления шума, эксперта по губам с учетом стиля и предсказателя стиля. Диффузионная сеть для удаления шума способна стабильно синтезировать высококачественные движения лица, управляемые аудио, для различных выражений. Для повышения выразительности и точности движений губ мы вводим эксперта по губам с учетом стиля, который может направлять синхронизацию губ, учитывая при этом стиль речи. Чтобы устранить необходимость в эталонном видео или тексте для выражения, используется дополнительный диффузионный предсказатель стиля, который предсказывает целевое выражение непосредственно из аудио. Таким образом, DreamTalk может эффективно использовать мощные диффузионные модели для генерации выразительных лиц и снижать зависимость от дорогостоящих эталонов стиля. Экспериментальные результаты показывают, что DreamTalk способен создавать фотореалистичные говорящие лица с разнообразными стилями речи и достигать точных движений губ, превосходя существующие передовые аналоги.

English

Diffusion models have shown remarkable success in a variety of downstream generative tasks, yet remain under-explored in the important and challenging expressive talking head generation. In this work, we propose a DreamTalk framework to fulfill this gap, which employs meticulous design to unlock the potential of diffusion models in generating expressive talking heads. Specifically, DreamTalk consists of three crucial components: a denoising network, a style-aware lip expert, and a style predictor. The diffusion-based denoising network is able to consistently synthesize high-quality audio-driven face motions across diverse expressions. To enhance the expressiveness and accuracy of lip motions, we introduce a style-aware lip expert that can guide lip-sync while being mindful of the speaking styles. To eliminate the need for expression reference video or text, an extra diffusion-based style predictor is utilized to predict the target expression directly from the audio. By this means, DreamTalk can harness powerful diffusion models to generate expressive faces effectively and reduce the reliance on expensive style references. Experimental results demonstrate that DreamTalk is capable of generating photo-realistic talking faces with diverse speaking styles and achieving accurate lip motions, surpassing existing state-of-the-art counterparts.

DreamTalk: Когда генерация выразительных говорящих голов встречается с диффузионными вероятностными моделями

DreamTalk: When Expressive Talking Head Generation Meets Diffusion Probabilistic Models

Аннотация

Support