RealTalk: Real-time en Realistische Audio-gestuurde Gezichtsgeneratie met een 3D Gezichts Prior-gestuurd Identiteitsuitlijningsnetwerk
RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network
June 26, 2024
Auteurs: Xiaozhong Ji, Chuming Lin, Zhonggan Ding, Ying Tai, Jian Yang, Junwei Zhu, Xiaobin Hu, Jiangning Zhang, Donghao Luo, Chengjie Wang
cs.AI
Samenvatting
Persoonsgenerieke audio-gestuurde gezichtsgeneratie is een uitdagende taak in de computer vision. Eerdere methoden hebben opmerkelijke vooruitgang geboekt in audiovisuele synchronisatie, maar er bestaat nog steeds een aanzienlijke kloof tussen de huidige resultaten en praktische toepassingen. De uitdagingen zijn tweeledig: 1) Het behouden van unieke individuele kenmerken voor het bereiken van hoogwaardige lipsynchronisatie. 2) Het genereren van hoogwaardige gezichtsweergaven met real-time prestaties. In dit artikel stellen we een nieuw gegeneraliseerd audio-gestuurd framework voor, genaamd RealTalk, dat bestaat uit een audio-naar-expressie transformer en een hoogwaardige expressie-naar-gezicht renderer. In het eerste component houden we rekening met zowel identiteits- als intrapersoonlijke variatiekenmerken die gerelateerd zijn aan sprekende lipbewegingen. Door cross-modale aandacht te integreren op de verrijkte gezichtspriors, kunnen we lipbewegingen effectief afstemmen op audio, waardoor we een grotere precisie bereiken in expressievoorspelling. In het tweede component ontwerpen we een lichtgewicht facial identity alignment (FIA) module, die een lipvorm-controle structuur en een gezichtstextuur-referentiestructuur omvat. Dit nieuwe ontwerp stelt ons in staat om fijne details in real-time te genereren, zonder afhankelijk te zijn van complexe en inefficiënte feature alignment modules. Onze experimentele resultaten, zowel kwantitatief als kwalitatief, op openbare datasets tonen de duidelijke voordelen van onze methode aan op het gebied van lip-spraak synchronisatie en generatiekwaliteit. Bovendien is onze methode efficiënt en vereist ze minder rekenbronnen, waardoor ze goed geschikt is om te voldoen aan de behoeften van praktische toepassingen.
English
Person-generic audio-driven face generation is a challenging task in computer
vision. Previous methods have achieved remarkable progress in audio-visual
synchronization, but there is still a significant gap between current results
and practical applications. The challenges are two-fold: 1) Preserving unique
individual traits for achieving high-precision lip synchronization. 2)
Generating high-quality facial renderings in real-time performance. In this
paper, we propose a novel generalized audio-driven framework RealTalk, which
consists of an audio-to-expression transformer and a high-fidelity
expression-to-face renderer. In the first component, we consider both identity
and intra-personal variation features related to speaking lip movements. By
incorporating cross-modal attention on the enriched facial priors, we can
effectively align lip movements with audio, thus attaining greater precision in
expression prediction. In the second component, we design a lightweight facial
identity alignment (FIA) module which includes a lip-shape control structure
and a face texture reference structure. This novel design allows us to generate
fine details in real-time, without depending on sophisticated and inefficient
feature alignment modules. Our experimental results, both quantitative and
qualitative, on public datasets demonstrate the clear advantages of our method
in terms of lip-speech synchronization and generation quality. Furthermore, our
method is efficient and requires fewer computational resources, making it
well-suited to meet the needs of practical applications.