Ontgrendel Pose Diversiteit: Nauwkeurige en Efficiënte Impliciete Keypoint-gebaseerde Spatiotemporele Diffusie voor Audio-gestuurde Sprekende Portretten
Unlock Pose Diversity: Accurate and Efficient Implicit Keypoint-based Spatiotemporal Diffusion for Audio-driven Talking Portrait
March 17, 2025
Auteurs: Chaolong Yang, Kai Yao, Yuyao Yan, Chenru Jiang, Weiguang Zhao, Jie Sun, Guangliang Cheng, Yifei Zhang, Bin Dong, Kaizhu Huang
cs.AI
Samenvatting
Audio-gestuurde generatie van pratende portretten uit één afbeelding speelt een cruciale rol in virtual reality, het creëren van digitale mensen en filmproductie. Bestaande benaderingen worden over het algemeen ingedeeld in keypoint-gebaseerde en beeld-gebaseerde methoden. Keypoint-gebaseerde methoden behouden effectief de identiteit van het personage, maar hebben moeite met het vastleggen van fijne gezichtsdetails vanwege de beperkingen van vaste punten in het 3D Morphable Model. Bovendien hebben traditionele generatieve netwerken moeite met het vaststellen van causaliteit tussen audio en keypoints op beperkte datasets, wat resulteert in een lage diversiteit in poses. Daarentegen produceren beeld-gebaseerde benaderingen hoogwaardige portretten met diverse details door gebruik te maken van het diffusienetwerk, maar lijden onder identiteitsvervorming en hoge rekenkosten. In dit werk stellen we KDTalker voor, het eerste framework dat unsupervised impliciete 3D keypoints combineert met een spatiotemporeel diffusiemodel. Door gebruik te maken van unsupervised impliciete 3D keypoints past KDTalker de dichtheid van gezichtsinformatie aan, waardoor het diffusieproces diverse hoofdposities kan modelleren en fijne gezichtsdetails flexibel kan vastleggen. Het speciaal ontworpen spatiotemporele aandachtmechanisme zorgt voor nauwkeurige lipsynchronisatie, wat temporeel consistente, hoogwaardige animaties oplevert terwijl de rekenkwaliteit wordt verbeterd. Experimentele resultaten tonen aan dat KDTalker state-of-the-art prestaties bereikt op het gebied van nauwkeurigheid van lipsynchronisatie, diversiteit in hoofdposities en uitvoeringsefficiëntie. Onze codes zijn beschikbaar op https://github.com/chaolongy/KDTalker.
English
Audio-driven single-image talking portrait generation plays a crucial role in
virtual reality, digital human creation, and filmmaking. Existing approaches
are generally categorized into keypoint-based and image-based methods.
Keypoint-based methods effectively preserve character identity but struggle to
capture fine facial details due to the fixed points limitation of the 3D
Morphable Model. Moreover, traditional generative networks face challenges in
establishing causality between audio and keypoints on limited datasets,
resulting in low pose diversity. In contrast, image-based approaches produce
high-quality portraits with diverse details using the diffusion network but
incur identity distortion and expensive computational costs. In this work, we
propose KDTalker, the first framework to combine unsupervised implicit 3D
keypoint with a spatiotemporal diffusion model. Leveraging unsupervised
implicit 3D keypoints, KDTalker adapts facial information densities, allowing
the diffusion process to model diverse head poses and capture fine facial
details flexibly. The custom-designed spatiotemporal attention mechanism
ensures accurate lip synchronization, producing temporally consistent,
high-quality animations while enhancing computational efficiency. Experimental
results demonstrate that KDTalker achieves state-of-the-art performance
regarding lip synchronization accuracy, head pose diversity, and execution
efficiency.Our codes are available at https://github.com/chaolongy/KDTalker.Summary
AI-Generated Summary