Sblocca la Diversità delle Pose: Diffusione Spaziotemporale Implicita Basata su Punti Chiave Precisa ed Efficiente per Ritratti Parlanti Guidati dall'Audio

Abstract

La generazione di ritratti parlanti basata su singole immagini guidate dall'audio svolge un ruolo cruciale nella realtà virtuale, nella creazione di umani digitali e nella produzione cinematografica. Gli approcci esistenti sono generalmente categorizzati in metodi basati su punti chiave e metodi basati su immagini. I metodi basati su punti chiave preservano efficacemente l'identità del personaggio, ma faticano a catturare i dettagli facciali fini a causa della limitazione dei punti fissi del modello morfabile 3D. Inoltre, le tradizionali reti generative affrontano difficoltà nello stabilire una causalità tra l'audio e i punti chiave su dataset limitati, risultando in una bassa diversità delle pose. Al contrario, gli approcci basati su immagini producono ritratti di alta qualità con dettagli diversificati utilizzando la rete di diffusione, ma comportano distorsioni dell'identità e costi computazionali elevati. In questo lavoro, proponiamo KDTalker, il primo framework che combina punti chiave 3D impliciti non supervisionati con un modello di diffusione spazio-temporale. Sfruttando i punti chiave 3D impliciti non supervisionati, KDTalker adatta le densità delle informazioni facciali, consentendo al processo di diffusione di modellare pose della testa diversificate e catturare dettagli facciali fini in modo flessibile. Il meccanismo di attenzione spazio-temporale progettato su misura garantisce una sincronizzazione labiale accurata, producendo animazioni temporalmente coerenti e di alta qualità, migliorando al contempo l'efficienza computazionale. I risultati sperimentali dimostrano che KDTalker raggiunge prestazioni all'avanguardia in termini di accuratezza della sincronizzazione labiale, diversità delle pose della testa ed efficienza di esecuzione. I nostri codici sono disponibili all'indirizzo https://github.com/chaolongy/KDTalker.

English

Audio-driven single-image talking portrait generation plays a crucial role in virtual reality, digital human creation, and filmmaking. Existing approaches are generally categorized into keypoint-based and image-based methods. Keypoint-based methods effectively preserve character identity but struggle to capture fine facial details due to the fixed points limitation of the 3D Morphable Model. Moreover, traditional generative networks face challenges in establishing causality between audio and keypoints on limited datasets, resulting in low pose diversity. In contrast, image-based approaches produce high-quality portraits with diverse details using the diffusion network but incur identity distortion and expensive computational costs. In this work, we propose KDTalker, the first framework to combine unsupervised implicit 3D keypoint with a spatiotemporal diffusion model. Leveraging unsupervised implicit 3D keypoints, KDTalker adapts facial information densities, allowing the diffusion process to model diverse head poses and capture fine facial details flexibly. The custom-designed spatiotemporal attention mechanism ensures accurate lip synchronization, producing temporally consistent, high-quality animations while enhancing computational efficiency. Experimental results demonstrate that KDTalker achieves state-of-the-art performance regarding lip synchronization accuracy, head pose diversity, and execution efficiency.Our codes are available at https://github.com/chaolongy/KDTalker.

Sblocca la Diversità delle Pose: Diffusione Spaziotemporale Implicita Basata su Punti Chiave Precisa ed Efficiente per Ritratti Parlanti Guidati dall'Audio

Unlock Pose Diversity: Accurate and Efficient Implicit Keypoint-based Spatiotemporal Diffusion for Audio-driven Talking Portrait

Abstract

Support