UniTalker: Escalando la Animación Facial 3D Dirigida por Audio a través de un Modelo Unificado
UniTalker: Scaling up Audio-Driven 3D Facial Animation through A Unified Model
August 1, 2024
Autores: Xiangyu Fan, Jiaqi Li, Zhiqian Lin, Weiye Xiao, Lei Yang
cs.AI
Resumen
La animación facial 3D impulsada por audio tiene como objetivo mapear el audio de entrada a movimientos faciales realistas. A pesar del progreso significativo, surgen limitaciones debido a anotaciones 3D inconsistentes, lo que restringe a los modelos anteriores a entrenar en anotaciones específicas y, por lo tanto, limita la escala de entrenamiento. En este trabajo, presentamos UniTalker, un modelo unificado que cuenta con una arquitectura multi-cabeza diseñada para aprovechar de manera efectiva conjuntos de datos con anotaciones variadas. Para mejorar la estabilidad del entrenamiento y garantizar la consistencia entre las salidas de múltiples cabezas, empleamos tres estrategias de entrenamiento, a saber, PCA, calentamiento del modelo e incrustación de identidad pivote. Para ampliar la escala y diversidad del entrenamiento, reunimos A2F-Bench, que comprende cinco conjuntos de datos disponibles públicamente y tres conjuntos de datos recién curados. Estos conjuntos de datos contienen una amplia gama de dominios de audio, cubriendo voces y canciones multilingües, escalando así los datos de entrenamiento de conjuntos de datos comúnmente utilizados, que suelen ser de menos de 1 hora, a 18.5 horas. Con un solo modelo UniTalker entrenado, logramos reducciones sustanciales en el error de vértices labiales del 9.2% para el conjunto de datos BIWI y del 13.7% para Vocaset. Además, el UniTalker pre-entrenado muestra promesa como modelo base para tareas de animación facial impulsadas por audio. Ajustar finamente el UniTalker pre-entrenado en conjuntos de datos vistos mejora aún más el rendimiento en cada conjunto de datos, con una reducción promedio del error del 6.3% en A2F-Bench. Además, ajustar finamente el UniTalker en un conjunto de datos no visto con solo la mitad de los datos supera a los modelos previos de última generación entrenados en el conjunto de datos completo. El código y los conjuntos de datos están disponibles en la página del proyecto https://github.com/X-niper/UniTalker.
English
Audio-driven 3D facial animation aims to map input audio to realistic facial
motion. Despite significant progress, limitations arise from inconsistent 3D
annotations, restricting previous models to training on specific annotations
and thereby constraining the training scale. In this work, we present
UniTalker, a unified model featuring a multi-head architecture designed to
effectively leverage datasets with varied annotations. To enhance training
stability and ensure consistency among multi-head outputs, we employ three
training strategies, namely, PCA, model warm-up, and pivot identity embedding.
To expand the training scale and diversity, we assemble A2F-Bench, comprising
five publicly available datasets and three newly curated datasets. These
datasets contain a wide range of audio domains, covering multilingual speech
voices and songs, thereby scaling the training data from commonly employed
datasets, typically less than 1 hour, to 18.5 hours. With a single trained
UniTalker model, we achieve substantial lip vertex error reductions of 9.2% for
BIWI dataset and 13.7% for Vocaset. Additionally, the pre-trained UniTalker
exhibits promise as the foundation model for audio-driven facial animation
tasks. Fine-tuning the pre-trained UniTalker on seen datasets further enhances
performance on each dataset, with an average error reduction of 6.3% on
A2F-Bench. Moreover, fine-tuning UniTalker on an unseen dataset with only half
the data surpasses prior state-of-the-art models trained on the full dataset.
The code and dataset are available at the project page
https://github.com/X-niper/UniTalker.Summary
AI-Generated Summary