UniTalker: Масштабирование анимации трехмерного лица по аудио с помощью объединенной модели
UniTalker: Scaling up Audio-Driven 3D Facial Animation through A Unified Model
August 1, 2024
Авторы: Xiangyu Fan, Jiaqi Li, Zhiqian Lin, Weiye Xiao, Lei Yang
cs.AI
Аннотация
Анимация лица в 3D по аудио направлена на отображение входного аудио в реалистичное движение лица. Несмотря на значительный прогресс, ограничения возникают из-за несогласованных 3D аннотаций, ограничивая предыдущие модели обучением на конкретных аннотациях и тем самым ограничивая масштаб обучения. В данной работе мы представляем UniTalker, унифицированную модель с многоголовой архитектурой, разработанную для эффективного использования наборов данных с различными аннотациями. Для улучшения стабильности обучения и обеспечения согласованности между многоголовыми выходами мы используем три стратегии обучения, а именно, PCA, предварительное обучение модели и встраивание идентичности-переключателя. Для расширения масштаба и разнообразия обучения мы собираем A2F-Bench, включающий пять общедоступных наборов данных и три новых набора данных. Эти наборы данных содержат широкий спектр аудио-доменов, охватывая многоязычные речевые голоса и песни, тем самым увеличивая объем обучающих данных с обычно используемых наборов данных, обычно менее 1 часа, до 18,5 часов. С помощью одной обученной модели UniTalker мы достигаем значительного снижения ошибки вершин губ на 9,2% для набора данных BIWI и 13,7% для Vocaset. Кроме того, предварительно обученный UniTalker обещает быть базовой моделью для задач аудио-управляемой анимации лица. Донастройка предварительно обученного UniTalker на видимых наборах данных дополнительно улучшает производительность на каждом наборе данных, среднее снижение ошибки на A2F-Bench составляет 6,3%. Более того, донастройка UniTalker на невидимом наборе данных с использованием только половины данных превосходит предыдущие передовые модели, обученные на полном наборе данных. Код и набор данных доступны на странице проекта https://github.com/X-niper/UniTalker.
English
Audio-driven 3D facial animation aims to map input audio to realistic facial
motion. Despite significant progress, limitations arise from inconsistent 3D
annotations, restricting previous models to training on specific annotations
and thereby constraining the training scale. In this work, we present
UniTalker, a unified model featuring a multi-head architecture designed to
effectively leverage datasets with varied annotations. To enhance training
stability and ensure consistency among multi-head outputs, we employ three
training strategies, namely, PCA, model warm-up, and pivot identity embedding.
To expand the training scale and diversity, we assemble A2F-Bench, comprising
five publicly available datasets and three newly curated datasets. These
datasets contain a wide range of audio domains, covering multilingual speech
voices and songs, thereby scaling the training data from commonly employed
datasets, typically less than 1 hour, to 18.5 hours. With a single trained
UniTalker model, we achieve substantial lip vertex error reductions of 9.2% for
BIWI dataset and 13.7% for Vocaset. Additionally, the pre-trained UniTalker
exhibits promise as the foundation model for audio-driven facial animation
tasks. Fine-tuning the pre-trained UniTalker on seen datasets further enhances
performance on each dataset, with an average error reduction of 6.3% on
A2F-Bench. Moreover, fine-tuning UniTalker on an unseen dataset with only half
the data surpasses prior state-of-the-art models trained on the full dataset.
The code and dataset are available at the project page
https://github.com/X-niper/UniTalker.Summary
AI-Generated Summary