ChatPaper.aiChatPaper

포즈 다양성 확보: 오디오 기반 대화형 초상화를 위한 정확하고 효율적인 암시적 키포인트 기반 시공간 확산

Unlock Pose Diversity: Accurate and Efficient Implicit Keypoint-based Spatiotemporal Diffusion for Audio-driven Talking Portrait

March 17, 2025
저자: Chaolong Yang, Kai Yao, Yuyao Yan, Chenru Jiang, Weiguang Zhao, Jie Sun, Guangliang Cheng, Yifei Zhang, Bin Dong, Kaizhu Huang
cs.AI

초록

오디오 기반 단일 이미지 말하는 초상화 생성은 가상 현실, 디지털 휴먼 제작, 영화 제작에서 중요한 역할을 합니다. 기존 접근 방식은 일반적으로 키포인트 기반 방법과 이미지 기반 방법으로 분류됩니다. 키포인트 기반 방법은 캐릭터 정체성을 효과적으로 보존하지만, 3D Morphable Model의 고정된 점 제한으로 인해 미세한 얼굴 세부 사항을 포착하는 데 어려움을 겪습니다. 또한, 전통적인 생성 네트워크는 제한된 데이터셋에서 오디오와 키포인트 간의 인과 관계를 설정하는 데 어려움을 겪어, 낮은 포즈 다양성을 초래합니다. 반면, 이미지 기반 접근 방식은 확산 네트워크를 사용하여 다양한 세부 사항을 가진 고품질 초상화를 생성하지만, 정체성 왜곡과 높은 계산 비용이 발생합니다. 본 연구에서는 비지도 학습 암묵적 3D 키포인트와 시공간 확산 모델을 결합한 첫 번째 프레임워크인 KDTalker를 제안합니다. 비지도 학습 암묵적 3D 키포인트를 활용하여 KDTalker는 얼굴 정보 밀도를 조정함으로써 확산 과정이 다양한 머리 포즈를 모델링하고 미세한 얼굴 세부 사항을 유연하게 포착할 수 있도록 합니다. 맞춤 설계된 시공간 주의 메커니즘은 정확한 입술 동기화를 보장하며, 시간적으로 일관된 고품질 애니메이션을 생성하면서 계산 효율성을 향상시킵니다. 실험 결과는 KDTalker가 입술 동기화 정확도, 머리 포즈 다양성, 실행 효율성 측면에서 최첨단 성능을 달성함을 보여줍니다. 우리의 코드는 https://github.com/chaolongy/KDTalker에서 확인할 수 있습니다.
English
Audio-driven single-image talking portrait generation plays a crucial role in virtual reality, digital human creation, and filmmaking. Existing approaches are generally categorized into keypoint-based and image-based methods. Keypoint-based methods effectively preserve character identity but struggle to capture fine facial details due to the fixed points limitation of the 3D Morphable Model. Moreover, traditional generative networks face challenges in establishing causality between audio and keypoints on limited datasets, resulting in low pose diversity. In contrast, image-based approaches produce high-quality portraits with diverse details using the diffusion network but incur identity distortion and expensive computational costs. In this work, we propose KDTalker, the first framework to combine unsupervised implicit 3D keypoint with a spatiotemporal diffusion model. Leveraging unsupervised implicit 3D keypoints, KDTalker adapts facial information densities, allowing the diffusion process to model diverse head poses and capture fine facial details flexibly. The custom-designed spatiotemporal attention mechanism ensures accurate lip synchronization, producing temporally consistent, high-quality animations while enhancing computational efficiency. Experimental results demonstrate that KDTalker achieves state-of-the-art performance regarding lip synchronization accuracy, head pose diversity, and execution efficiency.Our codes are available at https://github.com/chaolongy/KDTalker.

Summary

AI-Generated Summary

PDF72March 20, 2025