UniTalker: Skalierung der Audio-gesteuerten 3D-Gesichtsanimation durch ein vereinheitlichtes Modell
UniTalker: Scaling up Audio-Driven 3D Facial Animation through A Unified Model
August 1, 2024
Autoren: Xiangyu Fan, Jiaqi Li, Zhiqian Lin, Weiye Xiao, Lei Yang
cs.AI
Zusammenfassung
Die audiogetriebene 3D-Gesichtsanimation zielt darauf ab, Eingabegeräusche in realistische Gesichtsbewegungen zu übertragen. Trotz signifikanter Fortschritte ergeben sich Einschränkungen durch inkonsistente 3D-Annotationen, die frühere Modelle auf spezifische Annotationen beschränken und somit den Trainingsumfang einschränken. In dieser Arbeit präsentieren wir UniTalker, ein vereinheitlichtes Modell mit einer Multi-Head-Architektur, das darauf ausgelegt ist, Datensätze mit unterschiedlichen Annotationen effektiv zu nutzen. Um die Trainingsstabilität zu verbessern und Konsistenz zwischen den Multi-Head-Ausgaben sicherzustellen, verwenden wir drei Trainingsstrategien, nämlich PCA, Modell-Aufwärmung und Pivot-Identitäts-Einbettung. Um den Trainingsumfang und die Vielfalt zu erweitern, stellen wir A2F-Bench zusammen, bestehend aus fünf öffentlich verfügbaren Datensätzen und drei neu kuratierten Datensätzen. Diese Datensätze umfassen eine Vielzahl von Audio-Domänen, die mehrsprachige Sprachstimmen und Lieder abdecken und somit die Trainingsdaten von üblicherweise weniger als 1 Stunde auf 18,5 Stunden skalieren. Mit einem einzigen trainierten UniTalker-Modell erzielen wir signifikante Reduzierungen des Lippenvertexfehlers um 9,2 % für den BIWI-Datensatz und 13,7 % für Vocaset. Darüber hinaus zeigt der vorab trainierte UniTalker vielversprechende Ergebnisse als Grundlagenmodell für audiogetriebene Gesichtsanimationsaufgaben. Durch Feinabstimmung des vorab trainierten UniTalker auf bekannten Datensätzen wird die Leistung auf jedem Datensatz weiter verbessert, mit einer durchschnittlichen Fehlerreduzierung von 6,3 % auf A2F-Bench. Darüber hinaus übertrifft die Feinabstimmung des UniTalker auf einem unbekannten Datensatz mit nur der Hälfte der Daten bisherige State-of-the-Art-Modelle, die auf dem vollständigen Datensatz trainiert wurden. Der Code und die Datensätze sind auf der Projektseite https://github.com/X-niper/UniTalker verfügbar.
English
Audio-driven 3D facial animation aims to map input audio to realistic facial
motion. Despite significant progress, limitations arise from inconsistent 3D
annotations, restricting previous models to training on specific annotations
and thereby constraining the training scale. In this work, we present
UniTalker, a unified model featuring a multi-head architecture designed to
effectively leverage datasets with varied annotations. To enhance training
stability and ensure consistency among multi-head outputs, we employ three
training strategies, namely, PCA, model warm-up, and pivot identity embedding.
To expand the training scale and diversity, we assemble A2F-Bench, comprising
five publicly available datasets and three newly curated datasets. These
datasets contain a wide range of audio domains, covering multilingual speech
voices and songs, thereby scaling the training data from commonly employed
datasets, typically less than 1 hour, to 18.5 hours. With a single trained
UniTalker model, we achieve substantial lip vertex error reductions of 9.2% for
BIWI dataset and 13.7% for Vocaset. Additionally, the pre-trained UniTalker
exhibits promise as the foundation model for audio-driven facial animation
tasks. Fine-tuning the pre-trained UniTalker on seen datasets further enhances
performance on each dataset, with an average error reduction of 6.3% on
A2F-Bench. Moreover, fine-tuning UniTalker on an unseen dataset with only half
the data surpasses prior state-of-the-art models trained on the full dataset.
The code and dataset are available at the project page
https://github.com/X-niper/UniTalker.Summary
AI-Generated Summary