ChatPaper.aiChatPaper

Desbloqueie a Diversidade de Poses: Difusão Espaço-Temporal Baseada em Pontos-Chave Implícitos Precisos e Eficientes para Retratos Falantes Orientados por Áudio

Unlock Pose Diversity: Accurate and Efficient Implicit Keypoint-based Spatiotemporal Diffusion for Audio-driven Talking Portrait

March 17, 2025
Autores: Chaolong Yang, Kai Yao, Yuyao Yan, Chenru Jiang, Weiguang Zhao, Jie Sun, Guangliang Cheng, Yifei Zhang, Bin Dong, Kaizhu Huang
cs.AI

Resumo

A geração de retratos falantes baseada em áudio e uma única imagem desempenha um papel crucial na realidade virtual, criação de humanos digitais e produção cinematográfica. As abordagens existentes são geralmente categorizadas em métodos baseados em pontos-chave e métodos baseados em imagem. Os métodos baseados em pontos-chave preservam efetivamente a identidade do personagem, mas lutam para capturar detalhes faciais finos devido à limitação de pontos fixos do Modelo Morfável 3D. Além disso, as redes generativas tradicionais enfrentam desafios em estabelecer causalidade entre áudio e pontos-chave em conjuntos de dados limitados, resultando em baixa diversidade de poses. Em contraste, as abordagens baseadas em imagem produzem retratos de alta qualidade com diversos detalhes usando a rede de difusão, mas incorrem em distorção de identidade e custos computacionais elevados. Neste trabalho, propomos o KDTalker, o primeiro framework a combinar pontos-chave 3D implícitos não supervisionados com um modelo de difusão espaço-temporal. Aproveitando os pontos-chave 3D implícitos não supervisionados, o KDTalker adapta as densidades de informação facial, permitindo que o processo de difusão modele diversas poses de cabeça e capture detalhes faciais finos de forma flexível. O mecanismo de atenção espaço-temporal projetado sob medida garante sincronização labial precisa, produzindo animações temporalmente consistentes e de alta qualidade, ao mesmo tempo em que melhora a eficiência computacional. Os resultados experimentais demonstram que o KDTalker alcança desempenho de ponta em termos de precisão de sincronização labial, diversidade de poses de cabeça e eficiência de execução. Nossos códigos estão disponíveis em https://github.com/chaolongy/KDTalker.
English
Audio-driven single-image talking portrait generation plays a crucial role in virtual reality, digital human creation, and filmmaking. Existing approaches are generally categorized into keypoint-based and image-based methods. Keypoint-based methods effectively preserve character identity but struggle to capture fine facial details due to the fixed points limitation of the 3D Morphable Model. Moreover, traditional generative networks face challenges in establishing causality between audio and keypoints on limited datasets, resulting in low pose diversity. In contrast, image-based approaches produce high-quality portraits with diverse details using the diffusion network but incur identity distortion and expensive computational costs. In this work, we propose KDTalker, the first framework to combine unsupervised implicit 3D keypoint with a spatiotemporal diffusion model. Leveraging unsupervised implicit 3D keypoints, KDTalker adapts facial information densities, allowing the diffusion process to model diverse head poses and capture fine facial details flexibly. The custom-designed spatiotemporal attention mechanism ensures accurate lip synchronization, producing temporally consistent, high-quality animations while enhancing computational efficiency. Experimental results demonstrate that KDTalker achieves state-of-the-art performance regarding lip synchronization accuracy, head pose diversity, and execution efficiency.Our codes are available at https://github.com/chaolongy/KDTalker.

Summary

AI-Generated Summary

PDF72March 20, 2025