ChatPaper.aiChatPaper

DreamTalk: 확산 확률 모델과 만나는 표현적 Talking Head 생성

DreamTalk: When Expressive Talking Head Generation Meets Diffusion Probabilistic Models

December 15, 2023
저자: Yifeng Ma, Shiwei Zhang, Jiayu Wang, Xiang Wang, Yingya Zhang, Zhidong Deng
cs.AI

초록

디퓨전 모델은 다양한 하위 생성 작업에서 놀라운 성공을 거두었지만, 중요한 동시에 도전적인 표현적 말하는 헤드 생성 분야에서는 아직 충분히 탐구되지 않았습니다. 본 연구에서는 이러한 격차를 해소하기 위해 DreamTalk 프레임워크를 제안하며, 디퓨전 모델의 잠재력을 발휘할 수 있도록 세심하게 설계된 구조를 도입합니다. 구체적으로, DreamTalk은 세 가지 핵심 구성 요소로 이루어져 있습니다: 디노이징 네트워크, 스타일 인식 립 전문가, 그리고 스타일 예측기입니다. 디퓨전 기반의 디노이징 네트워크는 다양한 표정에서도 고품질의 오디오 기반 얼굴 움직임을 일관되게 합성할 수 있습니다. 립 싱크의 표현력과 정확도를 향상시키기 위해, 말하는 스타일을 고려하면서 립 싱크를 안내할 수 있는 스타일 인식 립 전문가를 도입했습니다. 또한, 표현 참조 비디오나 텍스트의 필요성을 없애기 위해 추가적인 디퓨전 기반 스타일 예측기를 활용하여 오디오에서 직접 목표 표정을 예측합니다. 이를 통해 DreamTalk은 강력한 디퓨전 모델을 활용하여 표현적인 얼굴을 효과적으로 생성할 수 있으며, 비용이 많이 드는 스타일 참조에 대한 의존도를 줄일 수 있습니다. 실험 결과는 DreamTalk이 다양한 말하는 스타일의 사진처럼 사실적인 말하는 얼굴을 생성하고 정확한 립 움직임을 달성하며, 기존의 최첨단 방법들을 능가함을 보여줍니다.
English
Diffusion models have shown remarkable success in a variety of downstream generative tasks, yet remain under-explored in the important and challenging expressive talking head generation. In this work, we propose a DreamTalk framework to fulfill this gap, which employs meticulous design to unlock the potential of diffusion models in generating expressive talking heads. Specifically, DreamTalk consists of three crucial components: a denoising network, a style-aware lip expert, and a style predictor. The diffusion-based denoising network is able to consistently synthesize high-quality audio-driven face motions across diverse expressions. To enhance the expressiveness and accuracy of lip motions, we introduce a style-aware lip expert that can guide lip-sync while being mindful of the speaking styles. To eliminate the need for expression reference video or text, an extra diffusion-based style predictor is utilized to predict the target expression directly from the audio. By this means, DreamTalk can harness powerful diffusion models to generate expressive faces effectively and reduce the reliance on expensive style references. Experimental results demonstrate that DreamTalk is capable of generating photo-realistic talking faces with diverse speaking styles and achieving accurate lip motions, surpassing existing state-of-the-art counterparts.
PDF272December 15, 2024