RealTalk : Génération de visages en temps réel et réaliste pilotée par l'audio avec un réseau d'alignement d'identité guidé par des informations 3D faciales
RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network
June 26, 2024
Auteurs: Xiaozhong Ji, Chuming Lin, Zhonggan Ding, Ying Tai, Jian Yang, Junwei Zhu, Xiaobin Hu, Jiangning Zhang, Donghao Luo, Chengjie Wang
cs.AI
Résumé
La génération de visages pilotée par l'audio de manière générique à la personne constitue une tâche complexe en vision par ordinateur. Les méthodes précédentes ont réalisé des progrès remarquables en matière de synchronisation audio-visuelle, mais un écart significatif persiste entre les résultats actuels et les applications pratiques. Les défis sont doubles : 1) Préserver les traits individuels uniques pour atteindre une synchronisation labiale de haute précision. 2) Générer des rendus faciaux de haute qualité en temps réel. Dans cet article, nous proposons un nouveau cadre généralisé piloté par l'audio, RealTalk, qui se compose d'un transformateur audio-vers-expression et d'un rendu expression-vers-visage haute fidélité. Dans le premier composant, nous prenons en compte à la fois les caractéristiques d'identité et les variations intra-personnelles liées aux mouvements labiaux lors de la parole. En incorporant une attention intermodale sur des a priori faciaux enrichis, nous pouvons aligner efficacement les mouvements labiaux avec l'audio, atteignant ainsi une plus grande précision dans la prédiction des expressions. Dans le second composant, nous concevons un module léger d'alignement d'identité faciale (FIA) qui inclut une structure de contrôle de la forme des lèvres et une structure de référence de texture faciale. Cette conception novatrice nous permet de générer des détails fins en temps réel, sans dépendre de modules d'alignement de caractéristiques sophistiqués et inefficaces. Nos résultats expérimentaux, tant quantitatifs que qualitatifs, sur des ensembles de données publics démontrent les avantages clairs de notre méthode en termes de synchronisation labiale-parole et de qualité de génération. De plus, notre méthode est efficace et nécessite moins de ressources computationnelles, la rendant bien adaptée aux besoins des applications pratiques.
English
Person-generic audio-driven face generation is a challenging task in computer
vision. Previous methods have achieved remarkable progress in audio-visual
synchronization, but there is still a significant gap between current results
and practical applications. The challenges are two-fold: 1) Preserving unique
individual traits for achieving high-precision lip synchronization. 2)
Generating high-quality facial renderings in real-time performance. In this
paper, we propose a novel generalized audio-driven framework RealTalk, which
consists of an audio-to-expression transformer and a high-fidelity
expression-to-face renderer. In the first component, we consider both identity
and intra-personal variation features related to speaking lip movements. By
incorporating cross-modal attention on the enriched facial priors, we can
effectively align lip movements with audio, thus attaining greater precision in
expression prediction. In the second component, we design a lightweight facial
identity alignment (FIA) module which includes a lip-shape control structure
and a face texture reference structure. This novel design allows us to generate
fine details in real-time, without depending on sophisticated and inefficient
feature alignment modules. Our experimental results, both quantitative and
qualitative, on public datasets demonstrate the clear advantages of our method
in terms of lip-speech synchronization and generation quality. Furthermore, our
method is efficient and requires fewer computational resources, making it
well-suited to meet the needs of practical applications.Summary
AI-Generated Summary