ChatPaper.aiChatPaper

Génération de Têtes Parlantes 3D à Fidélité Perceptive : Nouvelles Définitions, Représentation Speech-Mesh et Métriques d'Évaluation

Perceptually Accurate 3D Talking Head Generation: New Definitions, Speech-Mesh Representation, and Evaluation Metrics

March 26, 2025
Auteurs: Lee Chae-Yeon, Oh Hyun-Bin, Han EunGi, Kim Sung-Bin, Suekyeong Nam, Tae-Hyun Oh
cs.AI

Résumé

Les récents progrès dans la génération de têtes parlantes 3D pilotées par la parole ont permis des avancées significatives en matière de synchronisation labiale. Cependant, les modèles existants peinent encore à capturer l'alignement perceptuel entre les caractéristiques variées de la parole et les mouvements labiaux correspondants. Dans ce travail, nous affirmons que trois critères - la Synchronisation Temporelle, la Lisibilité Labiale et l'Expressivité - sont cruciaux pour obtenir des mouvements labiaux perceptuellement précis. Motivés par notre hypothèse qu'un espace de représentation souhaitable existe pour répondre à ces trois critères, nous introduisons une représentation synchronisée parole-maillage qui capture les correspondances complexes entre les signaux vocaux et les maillages faciaux 3D. Nous avons constaté que notre représentation apprise présente des caractéristiques souhaitables, et nous l'intégrons dans des modèles existants comme une perte perceptuelle pour mieux aligner les mouvements labiaux sur la parole donnée. De plus, nous utilisons cette représentation comme métrique perceptuelle et introduisons deux autres métriques de synchronisation labiale physiquement fondées pour évaluer dans quelle mesure les têtes parlantes 3D générées s'alignent sur ces trois critères. Les expériences montrent que l'entraînement des modèles de génération de têtes parlantes 3D avec notre perte perceptuelle améliore significativement les trois aspects de la synchronisation labiale perceptuellement précise. Les codes et les jeux de données sont disponibles à l'adresse https://perceptual-3d-talking-head.github.io/.
English
Recent advancements in speech-driven 3D talking head generation have made significant progress in lip synchronization. However, existing models still struggle to capture the perceptual alignment between varying speech characteristics and corresponding lip movements. In this work, we claim that three criteria -- Temporal Synchronization, Lip Readability, and Expressiveness -- are crucial for achieving perceptually accurate lip movements. Motivated by our hypothesis that a desirable representation space exists to meet these three criteria, we introduce a speech-mesh synchronized representation that captures intricate correspondences between speech signals and 3D face meshes. We found that our learned representation exhibits desirable characteristics, and we plug it into existing models as a perceptual loss to better align lip movements to the given speech. In addition, we utilize this representation as a perceptual metric and introduce two other physically grounded lip synchronization metrics to assess how well the generated 3D talking heads align with these three criteria. Experiments show that training 3D talking head generation models with our perceptual loss significantly improve all three aspects of perceptually accurate lip synchronization. Codes and datasets are available at https://perceptual-3d-talking-head.github.io/.

Summary

AI-Generated Summary

PDF223March 31, 2025