Libérez la diversité des poses : Diffusion spatiotemporelle précise et efficace basée sur des points clés implicites pour des portraits parlants pilotés par l'audio

papers.abstract

La génération de portraits parlants à partir d'une seule image et d'un signal audio joue un rôle crucial dans la réalité virtuelle, la création d'humains numériques et la production cinématographique. Les approches existantes sont généralement classées en méthodes basées sur des points clés et méthodes basées sur l'image. Les méthodes basées sur des points clés préservent efficacement l'identité du personnage, mais peinent à capturer les détails fins du visage en raison des limitations des points fixes du modèle morphable 3D. De plus, les réseaux génératifs traditionnels rencontrent des difficultés à établir une causalité entre l'audio et les points clés sur des ensembles de données limités, ce qui entraîne une faible diversité des poses. En revanche, les approches basées sur l'image produisent des portraits de haute qualité avec des détails variés en utilisant des réseaux de diffusion, mais souffrent de distorsions d'identité et de coûts de calcul élevés. Dans ce travail, nous proposons KDTalker, le premier cadre combinant des points clés 3D implicites non supervisés avec un modèle de diffusion spatiotemporelle. En exploitant des points clés 3D implicites non supervisés, KDTalker adapte les densités d'information faciale, permettant au processus de diffusion de modéliser diverses poses de tête et de capturer les détails fins du visage de manière flexible. Le mécanisme d'attention spatiotemporelle sur mesure assure une synchronisation labiale précise, produisant des animations temporellement cohérentes et de haute qualité tout en améliorant l'efficacité computationnelle. Les résultats expérimentaux montrent que KDTalker atteint des performances de pointe en termes de précision de synchronisation labiale, de diversité des poses de tête et d'efficacité d'exécution. Nos codes sont disponibles à l'adresse https://github.com/chaolongy/KDTalker.

English

Audio-driven single-image talking portrait generation plays a crucial role in virtual reality, digital human creation, and filmmaking. Existing approaches are generally categorized into keypoint-based and image-based methods. Keypoint-based methods effectively preserve character identity but struggle to capture fine facial details due to the fixed points limitation of the 3D Morphable Model. Moreover, traditional generative networks face challenges in establishing causality between audio and keypoints on limited datasets, resulting in low pose diversity. In contrast, image-based approaches produce high-quality portraits with diverse details using the diffusion network but incur identity distortion and expensive computational costs. In this work, we propose KDTalker, the first framework to combine unsupervised implicit 3D keypoint with a spatiotemporal diffusion model. Leveraging unsupervised implicit 3D keypoints, KDTalker adapts facial information densities, allowing the diffusion process to model diverse head poses and capture fine facial details flexibly. The custom-designed spatiotemporal attention mechanism ensures accurate lip synchronization, producing temporally consistent, high-quality animations while enhancing computational efficiency. Experimental results demonstrate that KDTalker achieves state-of-the-art performance regarding lip synchronization accuracy, head pose diversity, and execution efficiency.Our codes are available at https://github.com/chaolongy/KDTalker.

Libérez la diversité des poses : Diffusion spatiotemporelle précise et efficace basée sur des points clés implicites pour des portraits parlants pilotés par l'audio

Unlock Pose Diversity: Accurate and Efficient Implicit Keypoint-based Spatiotemporal Diffusion for Audio-driven Talking Portrait

papers.abstract

Support