UniTalker: 統一モデルによる音声駆動3D顔面アニメーションのスケールアップ
UniTalker: Scaling up Audio-Driven 3D Facial Animation through A Unified Model
August 1, 2024
著者: Xiangyu Fan, Jiaqi Li, Zhiqian Lin, Weiye Xiao, Lei Yang
cs.AI
要旨
音声駆動型3D顔面アニメーションは、入力音声をリアルな顔面の動きにマッピングすることを目指しています。これまでに大きな進展があったものの、一貫性のない3Dアノテーションが制約となり、従来のモデルは特定のアノテーションに基づいて訓練されるため、訓練規模が制限されていました。本研究では、異なるアノテーションを持つデータセットを効果的に活用するために、マルチヘッドアーキテクチャを特徴とする統一モデルUniTalkerを提案します。訓練の安定性を高め、マルチヘッド出力間の一貫性を確保するために、PCA、モデルウォームアップ、ピボットアイデンティティ埋め込みという3つの訓練戦略を採用しています。訓練規模と多様性を拡大するため、5つの公開データセットと3つの新たに作成したデータセットからなるA2F-Benchを構築しました。これらのデータセットは多言語の音声や歌を含む幅広い音声領域をカバーし、訓練データを一般的に使用される1時間未満のデータセットから18.5時間に拡張しています。単一の訓練済みUniTalkerモデルを用いることで、BIWIデータセットで9.2%、Vocasetで13.7%のリップ頂点誤差の大幅な削減を達成しました。さらに、事前訓練されたUniTalkerは、音声駆動型顔面アニメーションタスクの基盤モデルとしての可能性を示しています。事前訓練されたUniTalkerを既存のデータセットで微調整することで、各データセットの性能がさらに向上し、A2F-Benchでの平均誤差削減率は6.3%となりました。また、未見のデータセットにおいて、データ量を半分にした状態でUniTalkerを微調整しても、従来の最先端モデルを全データで訓練した場合を上回る結果を示しました。コードとデータセットはプロジェクトページhttps://github.com/X-niper/UniTalkerで公開されています。
English
Audio-driven 3D facial animation aims to map input audio to realistic facial
motion. Despite significant progress, limitations arise from inconsistent 3D
annotations, restricting previous models to training on specific annotations
and thereby constraining the training scale. In this work, we present
UniTalker, a unified model featuring a multi-head architecture designed to
effectively leverage datasets with varied annotations. To enhance training
stability and ensure consistency among multi-head outputs, we employ three
training strategies, namely, PCA, model warm-up, and pivot identity embedding.
To expand the training scale and diversity, we assemble A2F-Bench, comprising
five publicly available datasets and three newly curated datasets. These
datasets contain a wide range of audio domains, covering multilingual speech
voices and songs, thereby scaling the training data from commonly employed
datasets, typically less than 1 hour, to 18.5 hours. With a single trained
UniTalker model, we achieve substantial lip vertex error reductions of 9.2% for
BIWI dataset and 13.7% for Vocaset. Additionally, the pre-trained UniTalker
exhibits promise as the foundation model for audio-driven facial animation
tasks. Fine-tuning the pre-trained UniTalker on seen datasets further enhances
performance on each dataset, with an average error reduction of 6.3% on
A2F-Bench. Moreover, fine-tuning UniTalker on an unseen dataset with only half
the data surpasses prior state-of-the-art models trained on the full dataset.
The code and dataset are available at the project page
https://github.com/X-niper/UniTalker.Summary
AI-Generated Summary