RealTalk: Generazione del Volto in Tempo Reale e Realistica Guidata dall'Audio con Rete di Allineamento dell'Identità Basata su Priorità 3D del Volto
RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network
June 26, 2024
Autori: Xiaozhong Ji, Chuming Lin, Zhonggan Ding, Ying Tai, Jian Yang, Junwei Zhu, Xiaobin Hu, Jiangning Zhang, Donghao Luo, Chengjie Wang
cs.AI
Abstract
La generazione di volti guidata da audio generico per persone è un compito impegnativo nel campo della visione artificiale. I metodi precedenti hanno ottenuto progressi significativi nella sincronizzazione audio-visiva, ma esiste ancora un divario considerevole tra i risultati attuali e le applicazioni pratiche. Le sfide sono duplici: 1) Preservare i tratti individuali unici per ottenere una sincronizzazione labiale ad alta precisione. 2) Generare rendering facciali di alta qualità con prestazioni in tempo reale. In questo articolo, proponiamo un nuovo framework generalizzato guidato da audio chiamato RealTalk, che consiste in un trasformatore audio-espressione e un renderer espressione-volto ad alta fedeltà. Nel primo componente, consideriamo sia le caratteristiche di identità che le variazioni intra-personali legate ai movimenti labiali durante il parlato. Incorporando un'attenzione cross-modale sui precedenti facciali arricchiti, possiamo allineare efficacemente i movimenti labiali con l'audio, ottenendo così una maggiore precisione nella previsione delle espressioni. Nel secondo componente, progettiamo un modulo leggero di allineamento dell'identità facciale (FIA) che include una struttura di controllo della forma delle labbra e una struttura di riferimento della texture del volto. Questo design innovativo ci consente di generare dettagli fini in tempo reale, senza dipendere da moduli di allineamento delle caratteristiche complessi e inefficienti. I nostri risultati sperimentali, sia quantitativi che qualitativi, su dataset pubblici dimostrano i chiari vantaggi del nostro metodo in termini di sincronizzazione labiale-parola e qualità di generazione. Inoltre, il nostro metodo è efficiente e richiede meno risorse computazionali, rendendolo adatto a soddisfare le esigenze delle applicazioni pratiche.
English
Person-generic audio-driven face generation is a challenging task in computer
vision. Previous methods have achieved remarkable progress in audio-visual
synchronization, but there is still a significant gap between current results
and practical applications. The challenges are two-fold: 1) Preserving unique
individual traits for achieving high-precision lip synchronization. 2)
Generating high-quality facial renderings in real-time performance. In this
paper, we propose a novel generalized audio-driven framework RealTalk, which
consists of an audio-to-expression transformer and a high-fidelity
expression-to-face renderer. In the first component, we consider both identity
and intra-personal variation features related to speaking lip movements. By
incorporating cross-modal attention on the enriched facial priors, we can
effectively align lip movements with audio, thus attaining greater precision in
expression prediction. In the second component, we design a lightweight facial
identity alignment (FIA) module which includes a lip-shape control structure
and a face texture reference structure. This novel design allows us to generate
fine details in real-time, without depending on sophisticated and inefficient
feature alignment modules. Our experimental results, both quantitative and
qualitative, on public datasets demonstrate the clear advantages of our method
in terms of lip-speech synchronization and generation quality. Furthermore, our
method is efficient and requires fewer computational resources, making it
well-suited to meet the needs of practical applications.