ChatPaper.aiChatPaper

UniTalker: Scalabilità dell'Animazione Facciale 3D Guidata dall'Audio attraverso un Modello Unificato

UniTalker: Scaling up Audio-Driven 3D Facial Animation through A Unified Model

August 1, 2024
Autori: Xiangyu Fan, Jiaqi Li, Zhiqian Lin, Weiye Xiao, Lei Yang
cs.AI

Abstract

L'animazione facciale 3D guidata dall'audio mira a mappare l'audio in ingresso a movimenti facciali realistici. Nonostante i progressi significativi, le limitazioni derivano da annotazioni 3D inconsistenti, costringendo i modelli precedenti a essere addestrati su annotazioni specifiche e limitando così la scala di addestramento. In questo lavoro, presentiamo UniTalker, un modello unificato dotato di un'architettura multi-testo progettata per sfruttare efficacemente dataset con annotazioni variate. Per migliorare la stabilità dell'addestramento e garantire la coerenza tra gli output multi-testo, impieghiamo tre strategie di addestramento: PCA, riscaldamento del modello e incorporamento dell'identità pivot. Per espandere la scala e la diversità dell'addestramento, abbiamo assemblato A2F-Bench, comprendente cinque dataset pubblicamente disponibili e tre nuovi dataset curati. Questi dataset coprono un'ampia gamma di domini audio, includendo voci multilingue e canzoni, aumentando così i dati di addestramento dai dataset comunemente utilizzati, tipicamente inferiori a 1 ora, a 18,5 ore. Con un singolo modello UniTalker addestrato, otteniamo riduzioni significative dell'errore dei vertici labiali del 9,2% per il dataset BIWI e del 13,7% per Vocaset. Inoltre, il modello UniTalker pre-addestrato si dimostra promettente come modello di base per le attività di animazione facciale guidata dall'audio. Il fine-tuning di UniTalker pre-addestrato su dataset visti migliora ulteriormente le prestazioni su ciascun dataset, con una riduzione media dell'errore del 6,3% su A2F-Bench. Inoltre, il fine-tuning di UniTalker su un dataset non visto con solo metà dei dati supera i precedenti modelli all'avanguardia addestrati sull'intero dataset. Il codice e il dataset sono disponibili alla pagina del progetto https://github.com/X-niper/UniTalker.
English
Audio-driven 3D facial animation aims to map input audio to realistic facial motion. Despite significant progress, limitations arise from inconsistent 3D annotations, restricting previous models to training on specific annotations and thereby constraining the training scale. In this work, we present UniTalker, a unified model featuring a multi-head architecture designed to effectively leverage datasets with varied annotations. To enhance training stability and ensure consistency among multi-head outputs, we employ three training strategies, namely, PCA, model warm-up, and pivot identity embedding. To expand the training scale and diversity, we assemble A2F-Bench, comprising five publicly available datasets and three newly curated datasets. These datasets contain a wide range of audio domains, covering multilingual speech voices and songs, thereby scaling the training data from commonly employed datasets, typically less than 1 hour, to 18.5 hours. With a single trained UniTalker model, we achieve substantial lip vertex error reductions of 9.2% for BIWI dataset and 13.7% for Vocaset. Additionally, the pre-trained UniTalker exhibits promise as the foundation model for audio-driven facial animation tasks. Fine-tuning the pre-trained UniTalker on seen datasets further enhances performance on each dataset, with an average error reduction of 6.3% on A2F-Bench. Moreover, fine-tuning UniTalker on an unseen dataset with only half the data surpasses prior state-of-the-art models trained on the full dataset. The code and dataset are available at the project page https://github.com/X-niper/UniTalker.
PDF112November 28, 2024