Echtzeit- und realistische Audio-gesteuerte Gesichtsgenerierung mit 3D-Gesichtsprioritäts-geführtem Identitätsausrichtungsnetzwerk.
RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network
June 26, 2024
papers.authors: Xiaozhong Ji, Chuming Lin, Zhonggan Ding, Ying Tai, Jian Yang, Junwei Zhu, Xiaobin Hu, Jiangning Zhang, Donghao Luo, Chengjie Wang
cs.AI
papers.abstract
Die personenunabhängige audiogetriebene Gesichtsgenerierung ist eine anspruchsvolle Aufgabe in der Computer Vision. Frühere Methoden haben bemerkenswerte Fortschritte in der Audio-Visuellen Synchronisation erzielt, aber es besteht immer noch eine signifikante Kluft zwischen den aktuellen Ergebnissen und praktischen Anwendungen. Die Herausforderungen sind zweifach: 1) Die Bewahrung einzigartiger individueller Merkmale zur Erzielung einer hochpräzisen Lippen-Synchronisation. 2) Die Generierung hochwertiger Gesichtsdarstellungen in Echtzeit. In diesem Paper schlagen wir ein neuartiges generalisiertes audiogetriebenes Framework namens RealTalk vor, das aus einem Audio-zu-Expressions-Transformer und einem hochwertigen Expressions-zu-Gesichts-Renderer besteht. Im ersten Bestandteil berücksichtigen wir sowohl Identitäts- als auch intra-personale variationsbezogene Merkmale in Bezug auf sprechende Lippenbewegungen. Durch die Integration einer Cross-Modalen Aufmerksamkeit auf die angereicherten Gesichtsprioritäten können wir die Lippenbewegungen effektiv mit dem Audio ausrichten und somit eine höhere Präzision bei der Expressionsvorhersage erreichen. Im zweiten Bestandteil entwerfen wir ein leichtgewichtiges Gesichtsidentitätsausrichtungsmodul (FIA), das eine Lippenformsteuerungsstruktur und eine Gesichtstexturreferenzstruktur umfasst. Dieses neuartige Design ermöglicht es uns, Feinheiten in Echtzeit zu generieren, ohne auf anspruchsvolle und ineffiziente Merkmalsausrichtungsmodule angewiesen zu sein. Unsere experimentellen Ergebnisse, sowohl quantitativ als auch qualitativ, auf öffentlichen Datensätzen zeigen die klaren Vorteile unserer Methode hinsichtlich Lippen-Sprach-Synchronisation und Generierungsqualität. Darüber hinaus ist unsere Methode effizient und erfordert weniger Rechenressourcen, was sie gut geeignet macht, um den Anforderungen praktischer Anwendungen gerecht zu werden.
English
Person-generic audio-driven face generation is a challenging task in computer
vision. Previous methods have achieved remarkable progress in audio-visual
synchronization, but there is still a significant gap between current results
and practical applications. The challenges are two-fold: 1) Preserving unique
individual traits for achieving high-precision lip synchronization. 2)
Generating high-quality facial renderings in real-time performance. In this
paper, we propose a novel generalized audio-driven framework RealTalk, which
consists of an audio-to-expression transformer and a high-fidelity
expression-to-face renderer. In the first component, we consider both identity
and intra-personal variation features related to speaking lip movements. By
incorporating cross-modal attention on the enriched facial priors, we can
effectively align lip movements with audio, thus attaining greater precision in
expression prediction. In the second component, we design a lightweight facial
identity alignment (FIA) module which includes a lip-shape control structure
and a face texture reference structure. This novel design allows us to generate
fine details in real-time, without depending on sophisticated and inefficient
feature alignment modules. Our experimental results, both quantitative and
qualitative, on public datasets demonstrate the clear advantages of our method
in terms of lip-speech synchronization and generation quality. Furthermore, our
method is efficient and requires fewer computational resources, making it
well-suited to meet the needs of practical applications.