ChatPaper.aiChatPaper

RealTalk: Geração de Rosto Dirigida por Áudio em Tempo Real e Realista com Rede de Alinhamento de Identidade Guiada por Prioridade Facial 3D

RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network

June 26, 2024
Autores: Xiaozhong Ji, Chuming Lin, Zhonggan Ding, Ying Tai, Jian Yang, Junwei Zhu, Xiaobin Hu, Jiangning Zhang, Donghao Luo, Chengjie Wang
cs.AI

Resumo

A geração de rostos impulsionada por áudio genérico é uma tarefa desafiadora em visão computacional. Métodos anteriores alcançaram progresso notável na sincronização áudio-visual, mas ainda há uma lacuna significativa entre os resultados atuais e as aplicações práticas. Os desafios são duplos: 1) Preservar traços individuais únicos para alcançar uma sincronização labial de alta precisão. 2) Gerar renderizações faciais de alta qualidade em tempo real. Neste artigo, propomos um novo framework generalizado impulsionado por áudio chamado RealTalk, que consiste em um transformador de áudio para expressão e um renderizador de expressão para rosto de alta fidelidade. No primeiro componente, consideramos tanto a identidade quanto as características de variação intra-pessoal relacionadas aos movimentos labiais ao falar. Ao incorporar atenção cruzada nos priores faciais enriquecidos, podemos alinhar efetivamente os movimentos labiais com o áudio, alcançando assim uma maior precisão na previsão da expressão. No segundo componente, projetamos um módulo leve de alinhamento de identidade facial (FIA) que inclui uma estrutura de controle de forma labial e uma estrutura de referência de textura facial. Esse design inovador nos permite gerar detalhes finos em tempo real, sem depender de módulos sofisticados e ineficientes de alinhamento de características. Nossos resultados experimentais, tanto quantitativos quanto qualitativos, em conjuntos de dados públicos demonstram as claras vantagens de nosso método em termos de sincronização de fala e qualidade de geração labial. Além disso, nosso método é eficiente e requer menos recursos computacionais, tornando-o adequado para atender às necessidades de aplicações práticas.
English
Person-generic audio-driven face generation is a challenging task in computer vision. Previous methods have achieved remarkable progress in audio-visual synchronization, but there is still a significant gap between current results and practical applications. The challenges are two-fold: 1) Preserving unique individual traits for achieving high-precision lip synchronization. 2) Generating high-quality facial renderings in real-time performance. In this paper, we propose a novel generalized audio-driven framework RealTalk, which consists of an audio-to-expression transformer and a high-fidelity expression-to-face renderer. In the first component, we consider both identity and intra-personal variation features related to speaking lip movements. By incorporating cross-modal attention on the enriched facial priors, we can effectively align lip movements with audio, thus attaining greater precision in expression prediction. In the second component, we design a lightweight facial identity alignment (FIA) module which includes a lip-shape control structure and a face texture reference structure. This novel design allows us to generate fine details in real-time, without depending on sophisticated and inefficient feature alignment modules. Our experimental results, both quantitative and qualitative, on public datasets demonstrate the clear advantages of our method in terms of lip-speech synchronization and generation quality. Furthermore, our method is efficient and requires fewer computational resources, making it well-suited to meet the needs of practical applications.
PDF202November 28, 2024