ChatPaper.aiChatPaper

UniTalker: Schaalvergroting van audio-gestuurde 3D-gezichtsanimatie via een geïntegreerd model

UniTalker: Scaling up Audio-Driven 3D Facial Animation through A Unified Model

August 1, 2024
Auteurs: Xiangyu Fan, Jiaqi Li, Zhiqian Lin, Weiye Xiao, Lei Yang
cs.AI

Samenvatting

Audio-gestuurde 3D-gezichtsanimatie heeft als doel om invoeraudio te koppelen aan realistische gezichtsbewegingen. Ondanks aanzienlijke vooruitgang ontstaan er beperkingen door inconsistente 3D-annotaties, waardoor eerdere modellen beperkt waren tot training op specifieke annotaties en daardoor de trainingschaal beperkt werd. In dit werk presenteren we UniTalker, een uniform model met een multi-head architectuur dat ontworpen is om effectief gebruik te maken van datasets met verschillende annotaties. Om de trainingsstabiliteit te verbeteren en consistentie tussen de multi-head uitvoer te waarborgen, gebruiken we drie trainingsstrategieën, namelijk PCA, model warm-up en pivot identity embedding. Om de trainingschaal en diversiteit uit te breiden, hebben we A2F-Bench samengesteld, bestaande uit vijf openbaar beschikbare datasets en drie nieuw samengestelde datasets. Deze datasets bevatten een breed scala aan audiodomeinen, waaronder meertalige spraak en liedjes, waardoor de trainingsdata wordt opgeschaald van de gebruikelijke datasets, die doorgaans minder dan 1 uur beslaan, naar 18,5 uur. Met een enkel getraind UniTalker-model behalen we aanzienlijke reducties in lipvertexfouten van 9,2% voor de BIWI-dataset en 13,7% voor de Vocaset. Daarnaast toont het vooraf getrainde UniTalker belofte als het basismodel voor audio-gestuurde gezichtsanimatietaken. Het finetunen van het vooraf getrainde UniTalker op bekende datasets verbetert de prestaties op elke dataset verder, met een gemiddelde foutreductie van 6,3% op A2F-Bench. Bovendien overtreft het finetunen van UniTalker op een onbekende dataset met slechts de helft van de data de eerdere state-of-the-art modellen die getraind zijn op de volledige dataset. De code en dataset zijn beschikbaar op de projectpagina https://github.com/X-niper/UniTalker.
English
Audio-driven 3D facial animation aims to map input audio to realistic facial motion. Despite significant progress, limitations arise from inconsistent 3D annotations, restricting previous models to training on specific annotations and thereby constraining the training scale. In this work, we present UniTalker, a unified model featuring a multi-head architecture designed to effectively leverage datasets with varied annotations. To enhance training stability and ensure consistency among multi-head outputs, we employ three training strategies, namely, PCA, model warm-up, and pivot identity embedding. To expand the training scale and diversity, we assemble A2F-Bench, comprising five publicly available datasets and three newly curated datasets. These datasets contain a wide range of audio domains, covering multilingual speech voices and songs, thereby scaling the training data from commonly employed datasets, typically less than 1 hour, to 18.5 hours. With a single trained UniTalker model, we achieve substantial lip vertex error reductions of 9.2% for BIWI dataset and 13.7% for Vocaset. Additionally, the pre-trained UniTalker exhibits promise as the foundation model for audio-driven facial animation tasks. Fine-tuning the pre-trained UniTalker on seen datasets further enhances performance on each dataset, with an average error reduction of 6.3% on A2F-Bench. Moreover, fine-tuning UniTalker on an unseen dataset with only half the data surpasses prior state-of-the-art models trained on the full dataset. The code and dataset are available at the project page https://github.com/X-niper/UniTalker.
PDF102February 7, 2026