Sblocca la Diversità delle Pose: Diffusione Spaziotemporale Implicita Basata su Punti Chiave Precisa ed Efficiente per Ritratti Parlanti Guidati dall'Audio
Unlock Pose Diversity: Accurate and Efficient Implicit Keypoint-based Spatiotemporal Diffusion for Audio-driven Talking Portrait
March 17, 2025
Autori: Chaolong Yang, Kai Yao, Yuyao Yan, Chenru Jiang, Weiguang Zhao, Jie Sun, Guangliang Cheng, Yifei Zhang, Bin Dong, Kaizhu Huang
cs.AI
Abstract
La generazione di ritratti parlanti basata su singole immagini guidate dall'audio svolge un ruolo cruciale nella realtà virtuale, nella creazione di umani digitali e nella produzione cinematografica. Gli approcci esistenti sono generalmente categorizzati in metodi basati su punti chiave e metodi basati su immagini. I metodi basati su punti chiave preservano efficacemente l'identità del personaggio, ma faticano a catturare i dettagli facciali fini a causa della limitazione dei punti fissi del modello morfabile 3D. Inoltre, le tradizionali reti generative affrontano difficoltà nello stabilire una causalità tra l'audio e i punti chiave su dataset limitati, risultando in una bassa diversità delle pose. Al contrario, gli approcci basati su immagini producono ritratti di alta qualità con dettagli diversificati utilizzando la rete di diffusione, ma comportano distorsioni dell'identità e costi computazionali elevati. In questo lavoro, proponiamo KDTalker, il primo framework che combina punti chiave 3D impliciti non supervisionati con un modello di diffusione spazio-temporale. Sfruttando i punti chiave 3D impliciti non supervisionati, KDTalker adatta le densità delle informazioni facciali, consentendo al processo di diffusione di modellare pose della testa diversificate e catturare dettagli facciali fini in modo flessibile. Il meccanismo di attenzione spazio-temporale progettato su misura garantisce una sincronizzazione labiale accurata, producendo animazioni temporalmente coerenti e di alta qualità, migliorando al contempo l'efficienza computazionale. I risultati sperimentali dimostrano che KDTalker raggiunge prestazioni all'avanguardia in termini di accuratezza della sincronizzazione labiale, diversità delle pose della testa ed efficienza di esecuzione. I nostri codici sono disponibili all'indirizzo https://github.com/chaolongy/KDTalker.
English
Audio-driven single-image talking portrait generation plays a crucial role in
virtual reality, digital human creation, and filmmaking. Existing approaches
are generally categorized into keypoint-based and image-based methods.
Keypoint-based methods effectively preserve character identity but struggle to
capture fine facial details due to the fixed points limitation of the 3D
Morphable Model. Moreover, traditional generative networks face challenges in
establishing causality between audio and keypoints on limited datasets,
resulting in low pose diversity. In contrast, image-based approaches produce
high-quality portraits with diverse details using the diffusion network but
incur identity distortion and expensive computational costs. In this work, we
propose KDTalker, the first framework to combine unsupervised implicit 3D
keypoint with a spatiotemporal diffusion model. Leveraging unsupervised
implicit 3D keypoints, KDTalker adapts facial information densities, allowing
the diffusion process to model diverse head poses and capture fine facial
details flexibly. The custom-designed spatiotemporal attention mechanism
ensures accurate lip synchronization, producing temporally consistent,
high-quality animations while enhancing computational efficiency. Experimental
results demonstrate that KDTalker achieves state-of-the-art performance
regarding lip synchronization accuracy, head pose diversity, and execution
efficiency.Our codes are available at https://github.com/chaolongy/KDTalker.