UniTalker: Ampliando a Animação Facial 3D Dirigida por Áudio por Meio de um Modelo Unificado
UniTalker: Scaling up Audio-Driven 3D Facial Animation through A Unified Model
August 1, 2024
Autores: Xiangyu Fan, Jiaqi Li, Zhiqian Lin, Weiye Xiao, Lei Yang
cs.AI
Resumo
A animação facial 3D impulsionada por áudio tem como objetivo mapear áudio de entrada para movimentos faciais realistas. Apesar do progresso significativo, limitações surgem de anotações 3D inconsistentes, restringindo modelos anteriores ao treinamento em anotações específicas e, assim, limitando a escala de treinamento. Neste trabalho, apresentamos o UniTalker, um modelo unificado com uma arquitetura de múltiplas cabeças projetada para aproveitar efetivamente conjuntos de dados com anotações variadas. Para aprimorar a estabilidade do treinamento e garantir consistência entre as saídas de múltiplas cabeças, empregamos três estratégias de treinamento, a saber, PCA, aquecimento do modelo e incorporação de identidade pivô. Para expandir a escala e diversidade do treinamento, montamos o A2F-Bench, composto por cinco conjuntos de dados disponíveis publicamente e três conjuntos de dados recém-curados. Esses conjuntos de dados contêm uma ampla gama de domínios de áudio, cobrindo vozes e músicas multilíngues, escalando assim os dados de treinamento de conjuntos de dados comumente empregados, tipicamente com menos de 1 hora, para 18,5 horas. Com um único modelo UniTalker treinado, alcançamos reduções substanciais no erro de vértice labial de 9,2% para o conjunto de dados BIWI e 13,7% para o Vocaset. Além disso, o UniTalker pré-treinado mostra promessa como modelo base para tarefas de animação facial impulsionadas por áudio. O ajuste fino do UniTalker pré-treinado em conjuntos de dados vistos aprimora ainda mais o desempenho em cada conjunto de dados, com uma redução média de erro de 6,3% no A2F-Bench. Além disso, o ajuste fino do UniTalker em um conjunto de dados não visto com apenas metade dos dados supera modelos anteriores de última geração treinados no conjunto de dados completo. O código e o conjunto de dados estão disponíveis na página do projeto https://github.com/X-niper/UniTalker.
English
Audio-driven 3D facial animation aims to map input audio to realistic facial
motion. Despite significant progress, limitations arise from inconsistent 3D
annotations, restricting previous models to training on specific annotations
and thereby constraining the training scale. In this work, we present
UniTalker, a unified model featuring a multi-head architecture designed to
effectively leverage datasets with varied annotations. To enhance training
stability and ensure consistency among multi-head outputs, we employ three
training strategies, namely, PCA, model warm-up, and pivot identity embedding.
To expand the training scale and diversity, we assemble A2F-Bench, comprising
five publicly available datasets and three newly curated datasets. These
datasets contain a wide range of audio domains, covering multilingual speech
voices and songs, thereby scaling the training data from commonly employed
datasets, typically less than 1 hour, to 18.5 hours. With a single trained
UniTalker model, we achieve substantial lip vertex error reductions of 9.2% for
BIWI dataset and 13.7% for Vocaset. Additionally, the pre-trained UniTalker
exhibits promise as the foundation model for audio-driven facial animation
tasks. Fine-tuning the pre-trained UniTalker on seen datasets further enhances
performance on each dataset, with an average error reduction of 6.3% on
A2F-Bench. Moreover, fine-tuning UniTalker on an unseen dataset with only half
the data surpasses prior state-of-the-art models trained on the full dataset.
The code and dataset are available at the project page
https://github.com/X-niper/UniTalker.Summary
AI-Generated Summary