UniTalker : Amélioration de l'animation faciale 3D pilotée par l'audio grâce à un modèle unifié
UniTalker: Scaling up Audio-Driven 3D Facial Animation through A Unified Model
August 1, 2024
Auteurs: Xiangyu Fan, Jiaqi Li, Zhiqian Lin, Weiye Xiao, Lei Yang
cs.AI
Résumé
L'animation faciale 3D pilotée par l'audio vise à mapper un signal audio d'entrée à des mouvements faciaux réalistes. Malgré des progrès significatifs, des limitations découlent d'annotations 3D incohérentes, contraignant les modèles précédents à s'entraîner sur des annotations spécifiques et limitant ainsi l'échelle d'entraînement. Dans ce travail, nous présentons UniTalker, un modèle unifié doté d'une architecture multi-têtes conçue pour exploiter efficacement des jeux de données avec des annotations variées. Pour améliorer la stabilité de l'entraînement et assurer la cohérence entre les sorties multi-têtes, nous employons trois stratégies d'entraînement : l'ACP (Analyse en Composantes Principales), l'échauffement du modèle et l'incorporation d'identité pivot. Pour étendre l'échelle et la diversité de l'entraînement, nous constituons A2F-Bench, comprenant cinq jeux de données publics et trois nouveaux jeux de données. Ces ensembles couvrent un large éventail de domaines audio, incluant des voix multilingues et des chansons, augmentant ainsi les données d'entraînement de moins d'une heure à 18,5 heures. Avec un seul modèle UniTalker entraîné, nous obtenons des réductions substantielles de l'erreur des sommets labiaux de 9,2 % pour le jeu de données BIWI et de 13,7 % pour Vocaset. De plus, le modèle UniTalker pré-entraîné montre un potentiel en tant que modèle de base pour les tâches d'animation faciale pilotée par l'audio. Le fine-tuning d'UniTalker pré-entraîné sur des jeux de données connus améliore encore les performances sur chaque ensemble, avec une réduction moyenne de l'erreur de 6,3 % sur A2F-Bench. Par ailleurs, le fine-tuning d'UniTalker sur un jeu de données inédit avec seulement la moitié des données surpasse les modèles de pointe précédents entraînés sur l'ensemble complet des données. Le code et les jeux de données sont disponibles sur la page du projet https://github.com/X-niper/UniTalker.
English
Audio-driven 3D facial animation aims to map input audio to realistic facial
motion. Despite significant progress, limitations arise from inconsistent 3D
annotations, restricting previous models to training on specific annotations
and thereby constraining the training scale. In this work, we present
UniTalker, a unified model featuring a multi-head architecture designed to
effectively leverage datasets with varied annotations. To enhance training
stability and ensure consistency among multi-head outputs, we employ three
training strategies, namely, PCA, model warm-up, and pivot identity embedding.
To expand the training scale and diversity, we assemble A2F-Bench, comprising
five publicly available datasets and three newly curated datasets. These
datasets contain a wide range of audio domains, covering multilingual speech
voices and songs, thereby scaling the training data from commonly employed
datasets, typically less than 1 hour, to 18.5 hours. With a single trained
UniTalker model, we achieve substantial lip vertex error reductions of 9.2% for
BIWI dataset and 13.7% for Vocaset. Additionally, the pre-trained UniTalker
exhibits promise as the foundation model for audio-driven facial animation
tasks. Fine-tuning the pre-trained UniTalker on seen datasets further enhances
performance on each dataset, with an average error reduction of 6.3% on
A2F-Bench. Moreover, fine-tuning UniTalker on an unseen dataset with only half
the data surpasses prior state-of-the-art models trained on the full dataset.
The code and dataset are available at the project page
https://github.com/X-niper/UniTalker.Summary
AI-Generated Summary