RealTalk: Generación de rostros en tiempo real y realista impulsada por audio con una Red de Alineación de Identidad guiada por Prior 3D Facial
RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network
June 26, 2024
Autores: Xiaozhong Ji, Chuming Lin, Zhonggan Ding, Ying Tai, Jian Yang, Junwei Zhu, Xiaobin Hu, Jiangning Zhang, Donghao Luo, Chengjie Wang
cs.AI
Resumen
La generación de rostros impulsada por audio genérico para personas es una tarea desafiante en visión por computadora. Métodos anteriores han logrado avances notables en la sincronización audiovisual, pero aún existe una brecha significativa entre los resultados actuales y las aplicaciones prácticas. Los desafíos son dobles: 1) Preservar los rasgos individuales únicos para lograr una sincronización labial de alta precisión. 2) Generar representaciones faciales de alta calidad con un rendimiento en tiempo real. En este artículo, proponemos un nuevo marco generalizado impulsado por audio llamado RealTalk, que consta de un transformador de audio a expresión y un renderizador de expresión a rostro de alta fidelidad. En el primer componente, consideramos tanto las características de identidad como las variaciones intra-personales relacionadas con los movimientos labiales al hablar. Al incorporar atención multimodal en los antecedentes faciales enriquecidos, podemos alinear eficazmente los movimientos labiales con el audio, logrando así una mayor precisión en la predicción de expresiones. En el segundo componente, diseñamos un módulo ligero de alineación de identidad facial (FIA) que incluye una estructura de control de forma labial y una estructura de referencia de textura facial. Este diseño novedoso nos permite generar detalles finos en tiempo real, sin depender de módulos de alineación de características sofisticados e ineficientes. Nuestros resultados experimentales, tanto cuantitativos como cualitativos, en conjuntos de datos públicos demuestran las claras ventajas de nuestro método en términos de sincronización labial-habla y calidad de generación. Además, nuestro método es eficiente y requiere menos recursos computacionales, lo que lo hace adecuado para satisfacer las necesidades de aplicaciones prácticas.
English
Person-generic audio-driven face generation is a challenging task in computer
vision. Previous methods have achieved remarkable progress in audio-visual
synchronization, but there is still a significant gap between current results
and practical applications. The challenges are two-fold: 1) Preserving unique
individual traits for achieving high-precision lip synchronization. 2)
Generating high-quality facial renderings in real-time performance. In this
paper, we propose a novel generalized audio-driven framework RealTalk, which
consists of an audio-to-expression transformer and a high-fidelity
expression-to-face renderer. In the first component, we consider both identity
and intra-personal variation features related to speaking lip movements. By
incorporating cross-modal attention on the enriched facial priors, we can
effectively align lip movements with audio, thus attaining greater precision in
expression prediction. In the second component, we design a lightweight facial
identity alignment (FIA) module which includes a lip-shape control structure
and a face texture reference structure. This novel design allows us to generate
fine details in real-time, without depending on sophisticated and inefficient
feature alignment modules. Our experimental results, both quantitative and
qualitative, on public datasets demonstrate the clear advantages of our method
in terms of lip-speech synchronization and generation quality. Furthermore, our
method is efficient and requires fewer computational resources, making it
well-suited to meet the needs of practical applications.Summary
AI-Generated Summary