RealTalk: Generación de rostros en tiempo real y realista impulsada por audio con una Red de Alineación de Identidad guiada por Prior 3D Facial

Resumen

La generación de rostros impulsada por audio genérico para personas es una tarea desafiante en visión por computadora. Métodos anteriores han logrado avances notables en la sincronización audiovisual, pero aún existe una brecha significativa entre los resultados actuales y las aplicaciones prácticas. Los desafíos son dobles: 1) Preservar los rasgos individuales únicos para lograr una sincronización labial de alta precisión. 2) Generar representaciones faciales de alta calidad con un rendimiento en tiempo real. En este artículo, proponemos un nuevo marco generalizado impulsado por audio llamado RealTalk, que consta de un transformador de audio a expresión y un renderizador de expresión a rostro de alta fidelidad. En el primer componente, consideramos tanto las características de identidad como las variaciones intra-personales relacionadas con los movimientos labiales al hablar. Al incorporar atención multimodal en los antecedentes faciales enriquecidos, podemos alinear eficazmente los movimientos labiales con el audio, logrando así una mayor precisión en la predicción de expresiones. En el segundo componente, diseñamos un módulo ligero de alineación de identidad facial (FIA) que incluye una estructura de control de forma labial y una estructura de referencia de textura facial. Este diseño novedoso nos permite generar detalles finos en tiempo real, sin depender de módulos de alineación de características sofisticados e ineficientes. Nuestros resultados experimentales, tanto cuantitativos como cualitativos, en conjuntos de datos públicos demuestran las claras ventajas de nuestro método en términos de sincronización labial-habla y calidad de generación. Además, nuestro método es eficiente y requiere menos recursos computacionales, lo que lo hace adecuado para satisfacer las necesidades de aplicaciones prácticas.

English

Person-generic audio-driven face generation is a challenging task in computer vision. Previous methods have achieved remarkable progress in audio-visual synchronization, but there is still a significant gap between current results and practical applications. The challenges are two-fold: 1) Preserving unique individual traits for achieving high-precision lip synchronization. 2) Generating high-quality facial renderings in real-time performance. In this paper, we propose a novel generalized audio-driven framework RealTalk, which consists of an audio-to-expression transformer and a high-fidelity expression-to-face renderer. In the first component, we consider both identity and intra-personal variation features related to speaking lip movements. By incorporating cross-modal attention on the enriched facial priors, we can effectively align lip movements with audio, thus attaining greater precision in expression prediction. In the second component, we design a lightweight facial identity alignment (FIA) module which includes a lip-shape control structure and a face texture reference structure. This novel design allows us to generate fine details in real-time, without depending on sophisticated and inefficient feature alignment modules. Our experimental results, both quantitative and qualitative, on public datasets demonstrate the clear advantages of our method in terms of lip-speech synchronization and generation quality. Furthermore, our method is efficient and requires fewer computational resources, making it well-suited to meet the needs of practical applications.

RealTalk: Generación de rostros en tiempo real y realista impulsada por audio con una Red de Alineación de Identidad guiada por Prior 3D Facial

RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network

Resumen

Support