Ontgrendel Pose Diversiteit: Nauwkeurige en Efficiënte Impliciete Keypoint-gebaseerde Spatiotemporele Diffusie voor Audio-gestuurde Sprekende Portretten

Samenvatting

Audio-gestuurde generatie van pratende portretten uit één afbeelding speelt een cruciale rol in virtual reality, het creëren van digitale mensen en filmproductie. Bestaande benaderingen worden over het algemeen ingedeeld in keypoint-gebaseerde en beeld-gebaseerde methoden. Keypoint-gebaseerde methoden behouden effectief de identiteit van het personage, maar hebben moeite met het vastleggen van fijne gezichtsdetails vanwege de beperkingen van vaste punten in het 3D Morphable Model. Bovendien hebben traditionele generatieve netwerken moeite met het vaststellen van causaliteit tussen audio en keypoints op beperkte datasets, wat resulteert in een lage diversiteit in poses. Daarentegen produceren beeld-gebaseerde benaderingen hoogwaardige portretten met diverse details door gebruik te maken van het diffusienetwerk, maar lijden onder identiteitsvervorming en hoge rekenkosten. In dit werk stellen we KDTalker voor, het eerste framework dat unsupervised impliciete 3D keypoints combineert met een spatiotemporeel diffusiemodel. Door gebruik te maken van unsupervised impliciete 3D keypoints past KDTalker de dichtheid van gezichtsinformatie aan, waardoor het diffusieproces diverse hoofdposities kan modelleren en fijne gezichtsdetails flexibel kan vastleggen. Het speciaal ontworpen spatiotemporele aandachtmechanisme zorgt voor nauwkeurige lipsynchronisatie, wat temporeel consistente, hoogwaardige animaties oplevert terwijl de rekenkwaliteit wordt verbeterd. Experimentele resultaten tonen aan dat KDTalker state-of-the-art prestaties bereikt op het gebied van nauwkeurigheid van lipsynchronisatie, diversiteit in hoofdposities en uitvoeringsefficiëntie. Onze codes zijn beschikbaar op https://github.com/chaolongy/KDTalker.

English

Audio-driven single-image talking portrait generation plays a crucial role in virtual reality, digital human creation, and filmmaking. Existing approaches are generally categorized into keypoint-based and image-based methods. Keypoint-based methods effectively preserve character identity but struggle to capture fine facial details due to the fixed points limitation of the 3D Morphable Model. Moreover, traditional generative networks face challenges in establishing causality between audio and keypoints on limited datasets, resulting in low pose diversity. In contrast, image-based approaches produce high-quality portraits with diverse details using the diffusion network but incur identity distortion and expensive computational costs. In this work, we propose KDTalker, the first framework to combine unsupervised implicit 3D keypoint with a spatiotemporal diffusion model. Leveraging unsupervised implicit 3D keypoints, KDTalker adapts facial information densities, allowing the diffusion process to model diverse head poses and capture fine facial details flexibly. The custom-designed spatiotemporal attention mechanism ensures accurate lip synchronization, producing temporally consistent, high-quality animations while enhancing computational efficiency. Experimental results demonstrate that KDTalker achieves state-of-the-art performance regarding lip synchronization accuracy, head pose diversity, and execution efficiency.Our codes are available at https://github.com/chaolongy/KDTalker.

Ontgrendel Pose Diversiteit: Nauwkeurige en Efficiënte Impliciete Keypoint-gebaseerde Spatiotemporele Diffusie voor Audio-gestuurde Sprekende Portretten

Unlock Pose Diversity: Accurate and Efficient Implicit Keypoint-based Spatiotemporal Diffusion for Audio-driven Talking Portrait

Samenvatting

Support