Desbloquee la Diversidad de Poses: Difusión Espaciotemporal Implícita Basada en Puntos Clave Precisos y Eficientes para Retratos Hablados Impulsados por Audio

Resumen

La generación de retratos parlantes de una sola imagen impulsada por audio desempeña un papel crucial en la realidad virtual, la creación de humanos digitales y la producción cinematográfica. Los enfoques existentes se clasifican generalmente en métodos basados en puntos clave y métodos basados en imágenes. Los métodos basados en puntos clave preservan eficazmente la identidad del personaje, pero tienen dificultades para capturar detalles faciales finos debido a la limitación de puntos fijos del Modelo Morfológico 3D. Además, las redes generativas tradicionales enfrentan desafíos para establecer una causalidad entre el audio y los puntos clave en conjuntos de datos limitados, lo que resulta en una baja diversidad de poses. En contraste, los enfoques basados en imágenes producen retratos de alta calidad con detalles diversos utilizando la red de difusión, pero incurren en distorsión de identidad y costos computacionales elevados. En este trabajo, proponemos KDTalker, el primer marco que combina puntos clave 3D implícitos no supervisados con un modelo de difusión espacio-temporal. Aprovechando los puntos clave 3D implícitos no supervisados, KDTalker adapta las densidades de información facial, permitiendo que el proceso de difusión modele diversas poses de la cabeza y capture detalles faciales finos de manera flexible. El mecanismo de atención espacio-temporal diseñado a medida garantiza una sincronización labial precisa, produciendo animaciones de alta calidad y temporalmente consistentes, al tiempo que mejora la eficiencia computacional. Los resultados experimentales demuestran que KDTalker alcanza un rendimiento de vanguardia en cuanto a precisión de sincronización labial, diversidad de poses de la cabeza y eficiencia de ejecución. Nuestros códigos están disponibles en https://github.com/chaolongy/KDTalker.

English

Audio-driven single-image talking portrait generation plays a crucial role in virtual reality, digital human creation, and filmmaking. Existing approaches are generally categorized into keypoint-based and image-based methods. Keypoint-based methods effectively preserve character identity but struggle to capture fine facial details due to the fixed points limitation of the 3D Morphable Model. Moreover, traditional generative networks face challenges in establishing causality between audio and keypoints on limited datasets, resulting in low pose diversity. In contrast, image-based approaches produce high-quality portraits with diverse details using the diffusion network but incur identity distortion and expensive computational costs. In this work, we propose KDTalker, the first framework to combine unsupervised implicit 3D keypoint with a spatiotemporal diffusion model. Leveraging unsupervised implicit 3D keypoints, KDTalker adapts facial information densities, allowing the diffusion process to model diverse head poses and capture fine facial details flexibly. The custom-designed spatiotemporal attention mechanism ensures accurate lip synchronization, producing temporally consistent, high-quality animations while enhancing computational efficiency. Experimental results demonstrate that KDTalker achieves state-of-the-art performance regarding lip synchronization accuracy, head pose diversity, and execution efficiency.Our codes are available at https://github.com/chaolongy/KDTalker.

Desbloquee la Diversidad de Poses: Difusión Espaciotemporal Implícita Basada en Puntos Clave Precisos y Eficientes para Retratos Hablados Impulsados por Audio

Unlock Pose Diversity: Accurate and Efficient Implicit Keypoint-based Spatiotemporal Diffusion for Audio-driven Talking Portrait

Resumen

Support