ChatPaper.aiChatPaper

RealTalk : Génération de visages en temps réel et réaliste pilotée par l'audio avec un réseau d'alignement d'identité guidé par des informations 3D faciales

RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network

June 26, 2024
Auteurs: Xiaozhong Ji, Chuming Lin, Zhonggan Ding, Ying Tai, Jian Yang, Junwei Zhu, Xiaobin Hu, Jiangning Zhang, Donghao Luo, Chengjie Wang
cs.AI

Résumé

La génération de visages pilotée par l'audio de manière générique à la personne constitue une tâche complexe en vision par ordinateur. Les méthodes précédentes ont réalisé des progrès remarquables en matière de synchronisation audio-visuelle, mais un écart significatif persiste entre les résultats actuels et les applications pratiques. Les défis sont doubles : 1) Préserver les traits individuels uniques pour atteindre une synchronisation labiale de haute précision. 2) Générer des rendus faciaux de haute qualité en temps réel. Dans cet article, nous proposons un nouveau cadre généralisé piloté par l'audio, RealTalk, qui se compose d'un transformateur audio-vers-expression et d'un rendu expression-vers-visage haute fidélité. Dans le premier composant, nous prenons en compte à la fois les caractéristiques d'identité et les variations intra-personnelles liées aux mouvements labiaux lors de la parole. En incorporant une attention intermodale sur des a priori faciaux enrichis, nous pouvons aligner efficacement les mouvements labiaux avec l'audio, atteignant ainsi une plus grande précision dans la prédiction des expressions. Dans le second composant, nous concevons un module léger d'alignement d'identité faciale (FIA) qui inclut une structure de contrôle de la forme des lèvres et une structure de référence de texture faciale. Cette conception novatrice nous permet de générer des détails fins en temps réel, sans dépendre de modules d'alignement de caractéristiques sophistiqués et inefficaces. Nos résultats expérimentaux, tant quantitatifs que qualitatifs, sur des ensembles de données publics démontrent les avantages clairs de notre méthode en termes de synchronisation labiale-parole et de qualité de génération. De plus, notre méthode est efficace et nécessite moins de ressources computationnelles, la rendant bien adaptée aux besoins des applications pratiques.
English
Person-generic audio-driven face generation is a challenging task in computer vision. Previous methods have achieved remarkable progress in audio-visual synchronization, but there is still a significant gap between current results and practical applications. The challenges are two-fold: 1) Preserving unique individual traits for achieving high-precision lip synchronization. 2) Generating high-quality facial renderings in real-time performance. In this paper, we propose a novel generalized audio-driven framework RealTalk, which consists of an audio-to-expression transformer and a high-fidelity expression-to-face renderer. In the first component, we consider both identity and intra-personal variation features related to speaking lip movements. By incorporating cross-modal attention on the enriched facial priors, we can effectively align lip movements with audio, thus attaining greater precision in expression prediction. In the second component, we design a lightweight facial identity alignment (FIA) module which includes a lip-shape control structure and a face texture reference structure. This novel design allows us to generate fine details in real-time, without depending on sophisticated and inefficient feature alignment modules. Our experimental results, both quantitative and qualitative, on public datasets demonstrate the clear advantages of our method in terms of lip-speech synchronization and generation quality. Furthermore, our method is efficient and requires fewer computational resources, making it well-suited to meet the needs of practical applications.

Summary

AI-Generated Summary

PDF202November 28, 2024