Libérez la diversité des poses : Diffusion spatiotemporelle précise et efficace basée sur des points clés implicites pour des portraits parlants pilotés par l'audio
Unlock Pose Diversity: Accurate and Efficient Implicit Keypoint-based Spatiotemporal Diffusion for Audio-driven Talking Portrait
March 17, 2025
Auteurs: Chaolong Yang, Kai Yao, Yuyao Yan, Chenru Jiang, Weiguang Zhao, Jie Sun, Guangliang Cheng, Yifei Zhang, Bin Dong, Kaizhu Huang
cs.AI
Résumé
La génération de portraits parlants à partir d'une seule image et d'un signal audio joue un rôle crucial dans la réalité virtuelle, la création d'humains numériques et la production cinématographique. Les approches existantes sont généralement classées en méthodes basées sur des points clés et méthodes basées sur l'image. Les méthodes basées sur des points clés préservent efficacement l'identité du personnage, mais peinent à capturer les détails fins du visage en raison des limitations des points fixes du modèle morphable 3D. De plus, les réseaux génératifs traditionnels rencontrent des difficultés à établir une causalité entre l'audio et les points clés sur des ensembles de données limités, ce qui entraîne une faible diversité des poses. En revanche, les approches basées sur l'image produisent des portraits de haute qualité avec des détails variés en utilisant des réseaux de diffusion, mais souffrent de distorsions d'identité et de coûts de calcul élevés. Dans ce travail, nous proposons KDTalker, le premier cadre combinant des points clés 3D implicites non supervisés avec un modèle de diffusion spatiotemporelle. En exploitant des points clés 3D implicites non supervisés, KDTalker adapte les densités d'information faciale, permettant au processus de diffusion de modéliser diverses poses de tête et de capturer les détails fins du visage de manière flexible. Le mécanisme d'attention spatiotemporelle sur mesure assure une synchronisation labiale précise, produisant des animations temporellement cohérentes et de haute qualité tout en améliorant l'efficacité computationnelle. Les résultats expérimentaux montrent que KDTalker atteint des performances de pointe en termes de précision de synchronisation labiale, de diversité des poses de tête et d'efficacité d'exécution. Nos codes sont disponibles à l'adresse https://github.com/chaolongy/KDTalker.
English
Audio-driven single-image talking portrait generation plays a crucial role in
virtual reality, digital human creation, and filmmaking. Existing approaches
are generally categorized into keypoint-based and image-based methods.
Keypoint-based methods effectively preserve character identity but struggle to
capture fine facial details due to the fixed points limitation of the 3D
Morphable Model. Moreover, traditional generative networks face challenges in
establishing causality between audio and keypoints on limited datasets,
resulting in low pose diversity. In contrast, image-based approaches produce
high-quality portraits with diverse details using the diffusion network but
incur identity distortion and expensive computational costs. In this work, we
propose KDTalker, the first framework to combine unsupervised implicit 3D
keypoint with a spatiotemporal diffusion model. Leveraging unsupervised
implicit 3D keypoints, KDTalker adapts facial information densities, allowing
the diffusion process to model diverse head poses and capture fine facial
details flexibly. The custom-designed spatiotemporal attention mechanism
ensures accurate lip synchronization, producing temporally consistent,
high-quality animations while enhancing computational efficiency. Experimental
results demonstrate that KDTalker achieves state-of-the-art performance
regarding lip synchronization accuracy, head pose diversity, and execution
efficiency.Our codes are available at https://github.com/chaolongy/KDTalker.Summary
AI-Generated Summary