UniTalker : Amélioration de l'animation faciale 3D pilotée par l'audio grâce à un modèle unifié

papers.abstract

L'animation faciale 3D pilotée par l'audio vise à mapper un signal audio d'entrée à des mouvements faciaux réalistes. Malgré des progrès significatifs, des limitations découlent d'annotations 3D incohérentes, contraignant les modèles précédents à s'entraîner sur des annotations spécifiques et limitant ainsi l'échelle d'entraînement. Dans ce travail, nous présentons UniTalker, un modèle unifié doté d'une architecture multi-têtes conçue pour exploiter efficacement des jeux de données avec des annotations variées. Pour améliorer la stabilité de l'entraînement et assurer la cohérence entre les sorties multi-têtes, nous employons trois stratégies d'entraînement : l'ACP (Analyse en Composantes Principales), l'échauffement du modèle et l'incorporation d'identité pivot. Pour étendre l'échelle et la diversité de l'entraînement, nous constituons A2F-Bench, comprenant cinq jeux de données publics et trois nouveaux jeux de données. Ces ensembles couvrent un large éventail de domaines audio, incluant des voix multilingues et des chansons, augmentant ainsi les données d'entraînement de moins d'une heure à 18,5 heures. Avec un seul modèle UniTalker entraîné, nous obtenons des réductions substantielles de l'erreur des sommets labiaux de 9,2 % pour le jeu de données BIWI et de 13,7 % pour Vocaset. De plus, le modèle UniTalker pré-entraîné montre un potentiel en tant que modèle de base pour les tâches d'animation faciale pilotée par l'audio. Le fine-tuning d'UniTalker pré-entraîné sur des jeux de données connus améliore encore les performances sur chaque ensemble, avec une réduction moyenne de l'erreur de 6,3 % sur A2F-Bench. Par ailleurs, le fine-tuning d'UniTalker sur un jeu de données inédit avec seulement la moitié des données surpasse les modèles de pointe précédents entraînés sur l'ensemble complet des données. Le code et les jeux de données sont disponibles sur la page du projet https://github.com/X-niper/UniTalker.

English

Audio-driven 3D facial animation aims to map input audio to realistic facial motion. Despite significant progress, limitations arise from inconsistent 3D annotations, restricting previous models to training on specific annotations and thereby constraining the training scale. In this work, we present UniTalker, a unified model featuring a multi-head architecture designed to effectively leverage datasets with varied annotations. To enhance training stability and ensure consistency among multi-head outputs, we employ three training strategies, namely, PCA, model warm-up, and pivot identity embedding. To expand the training scale and diversity, we assemble A2F-Bench, comprising five publicly available datasets and three newly curated datasets. These datasets contain a wide range of audio domains, covering multilingual speech voices and songs, thereby scaling the training data from commonly employed datasets, typically less than 1 hour, to 18.5 hours. With a single trained UniTalker model, we achieve substantial lip vertex error reductions of 9.2% for BIWI dataset and 13.7% for Vocaset. Additionally, the pre-trained UniTalker exhibits promise as the foundation model for audio-driven facial animation tasks. Fine-tuning the pre-trained UniTalker on seen datasets further enhances performance on each dataset, with an average error reduction of 6.3% on A2F-Bench. Moreover, fine-tuning UniTalker on an unseen dataset with only half the data surpasses prior state-of-the-art models trained on the full dataset. The code and dataset are available at the project page https://github.com/X-niper/UniTalker.

UniTalker : Amélioration de l'animation faciale 3D pilotée par l'audio grâce à un modèle unifié

UniTalker: Scaling up Audio-Driven 3D Facial Animation through A Unified Model

papers.abstract

Support