Desbloquee la Diversidad de Poses: Difusión Espaciotemporal Implícita Basada en Puntos Clave Precisos y Eficientes para Retratos Hablados Impulsados por Audio
Unlock Pose Diversity: Accurate and Efficient Implicit Keypoint-based Spatiotemporal Diffusion for Audio-driven Talking Portrait
March 17, 2025
Autores: Chaolong Yang, Kai Yao, Yuyao Yan, Chenru Jiang, Weiguang Zhao, Jie Sun, Guangliang Cheng, Yifei Zhang, Bin Dong, Kaizhu Huang
cs.AI
Resumen
La generación de retratos parlantes de una sola imagen impulsada por audio desempeña un papel crucial en la realidad virtual, la creación de humanos digitales y la producción cinematográfica. Los enfoques existentes se clasifican generalmente en métodos basados en puntos clave y métodos basados en imágenes. Los métodos basados en puntos clave preservan eficazmente la identidad del personaje, pero tienen dificultades para capturar detalles faciales finos debido a la limitación de puntos fijos del Modelo Morfológico 3D. Además, las redes generativas tradicionales enfrentan desafíos para establecer una causalidad entre el audio y los puntos clave en conjuntos de datos limitados, lo que resulta en una baja diversidad de poses. En contraste, los enfoques basados en imágenes producen retratos de alta calidad con detalles diversos utilizando la red de difusión, pero incurren en distorsión de identidad y costos computacionales elevados. En este trabajo, proponemos KDTalker, el primer marco que combina puntos clave 3D implícitos no supervisados con un modelo de difusión espacio-temporal. Aprovechando los puntos clave 3D implícitos no supervisados, KDTalker adapta las densidades de información facial, permitiendo que el proceso de difusión modele diversas poses de la cabeza y capture detalles faciales finos de manera flexible. El mecanismo de atención espacio-temporal diseñado a medida garantiza una sincronización labial precisa, produciendo animaciones de alta calidad y temporalmente consistentes, al tiempo que mejora la eficiencia computacional. Los resultados experimentales demuestran que KDTalker alcanza un rendimiento de vanguardia en cuanto a precisión de sincronización labial, diversidad de poses de la cabeza y eficiencia de ejecución. Nuestros códigos están disponibles en https://github.com/chaolongy/KDTalker.
English
Audio-driven single-image talking portrait generation plays a crucial role in
virtual reality, digital human creation, and filmmaking. Existing approaches
are generally categorized into keypoint-based and image-based methods.
Keypoint-based methods effectively preserve character identity but struggle to
capture fine facial details due to the fixed points limitation of the 3D
Morphable Model. Moreover, traditional generative networks face challenges in
establishing causality between audio and keypoints on limited datasets,
resulting in low pose diversity. In contrast, image-based approaches produce
high-quality portraits with diverse details using the diffusion network but
incur identity distortion and expensive computational costs. In this work, we
propose KDTalker, the first framework to combine unsupervised implicit 3D
keypoint with a spatiotemporal diffusion model. Leveraging unsupervised
implicit 3D keypoints, KDTalker adapts facial information densities, allowing
the diffusion process to model diverse head poses and capture fine facial
details flexibly. The custom-designed spatiotemporal attention mechanism
ensures accurate lip synchronization, producing temporally consistent,
high-quality animations while enhancing computational efficiency. Experimental
results demonstrate that KDTalker achieves state-of-the-art performance
regarding lip synchronization accuracy, head pose diversity, and execution
efficiency.Our codes are available at https://github.com/chaolongy/KDTalker.Summary
AI-Generated Summary