UniTalker: 통합 모델을 통한 오디오 기반 3D 얼굴 애니메이션 확장
UniTalker: Scaling up Audio-Driven 3D Facial Animation through A Unified Model
August 1, 2024
저자: Xiangyu Fan, Jiaqi Li, Zhiqian Lin, Weiye Xiao, Lei Yang
cs.AI
초록
오디오 기반 3D 얼굴 애니메이션은 입력된 오디오를 사실적인 얼굴 움직임으로 매핑하는 것을 목표로 합니다. 상당한 진전이 있었음에도 불구하고, 일관되지 않은 3D 주석으로 인해 이전 모델들은 특정 주석에 국한된 훈련을 해야 했고, 이는 훈련 규모를 제한하는 요인으로 작용했습니다. 본 연구에서는 다양한 주석을 가진 데이터셋을 효과적으로 활용하기 위해 다중 헤드(multi-head) 아키텍처를 특징으로 하는 통합 모델인 UniTalker를 제안합니다. 훈련 안정성을 높이고 다중 헤드 출력 간의 일관성을 보장하기 위해 PCA, 모델 워밍업(warm-up), 그리고 피벗 아이덴티티 임베딩(pivot identity embedding)이라는 세 가지 훈련 전략을 사용합니다. 훈련 규모와 다양성을 확장하기 위해, 우리는 5개의 공개 데이터셋과 3개의 새롭게 구축한 데이터셋으로 구성된 A2F-Bench를 구축했습니다. 이 데이터셋은 다국어 음성과 노래를 포함한 광범위한 오디오 도메인을 다루며, 일반적으로 1시간 미만으로 사용되던 훈련 데이터를 18.5시간으로 확장했습니다. 단일 훈련된 UniTalker 모델을 통해, BIWI 데이터셋에서 9.2%, Vocaset 데이터셋에서 13.7%의 입술 정점 오류 감소를 달성했습니다. 또한, 사전 훈련된 UniTalker는 오디오 기반 얼굴 애니메이션 작업을 위한 기반 모델로서의 잠재력을 보여줍니다. 사전 훈련된 UniTalker를 기존 데이터셋에 미세 조정(fine-tuning)하면 각 데이터셋에서의 성능이 더욱 향상되며, A2F-Bench에서 평균 6.3%의 오류 감소를 보입니다. 더 나아가, 미세 조정된 UniTalker는 전체 데이터셋으로 훈련된 기존 최첨단 모델을 데이터의 절반만 사용하여도 능가하는 성능을 보입니다. 코드와 데이터셋은 프로젝트 페이지 https://github.com/X-niper/UniTalker에서 확인할 수 있습니다.
English
Audio-driven 3D facial animation aims to map input audio to realistic facial
motion. Despite significant progress, limitations arise from inconsistent 3D
annotations, restricting previous models to training on specific annotations
and thereby constraining the training scale. In this work, we present
UniTalker, a unified model featuring a multi-head architecture designed to
effectively leverage datasets with varied annotations. To enhance training
stability and ensure consistency among multi-head outputs, we employ three
training strategies, namely, PCA, model warm-up, and pivot identity embedding.
To expand the training scale and diversity, we assemble A2F-Bench, comprising
five publicly available datasets and three newly curated datasets. These
datasets contain a wide range of audio domains, covering multilingual speech
voices and songs, thereby scaling the training data from commonly employed
datasets, typically less than 1 hour, to 18.5 hours. With a single trained
UniTalker model, we achieve substantial lip vertex error reductions of 9.2% for
BIWI dataset and 13.7% for Vocaset. Additionally, the pre-trained UniTalker
exhibits promise as the foundation model for audio-driven facial animation
tasks. Fine-tuning the pre-trained UniTalker on seen datasets further enhances
performance on each dataset, with an average error reduction of 6.3% on
A2F-Bench. Moreover, fine-tuning UniTalker on an unseen dataset with only half
the data surpasses prior state-of-the-art models trained on the full dataset.
The code and dataset are available at the project page
https://github.com/X-niper/UniTalker.Summary
AI-Generated Summary