Media2Face: Генерация коречевой мимической анимации с использованием мультимодальных ориентиров
Media2Face: Co-speech Facial Animation Generation With Multi-Modality Guidance
January 28, 2024
Авторы: Qingcheng Zhao, Pengyu Long, Qixuan Zhang, Dafei Qin, Han Liang, Longwen Zhang, Yingliang Zhang, Jingyi Yu, Lan Xu
cs.AI
Аннотация
Синтез 3D-анимации лица на основе речи привлек значительное внимание. Из-за недостатка высококачественных 4D-данных о лице и хорошо аннотированных мультимодальных меток предыдущие методы часто страдают от ограниченного реализма и отсутствия гибких условий. Мы решаем эту задачу с помощью трилогии. Сначала мы представляем Generalized Neural Parametric Facial Asset (GNPFA) — эффективный вариационный автокодировщик, который отображает геометрию лица и изображения в высоко обобщенное латентное пространство выражений, разделяя выражения и идентичности. Затем мы используем GNPFA для извлечения высококачественных выражений и точных поз головы из большого массива видео. Это приводит к созданию набора данных M2F-D — крупного, разнообразного и детализированного набора данных 3D-анимации лица, синхронизированной с речью, с хорошо аннотированными эмоциональными и стилевыми метками. Наконец, мы предлагаем Media2Face — диффузионную модель в латентном пространстве GNPFA для генерации анимации лица, синхронизированной с речью, которая принимает богатые мультимодальные указания от аудио, текста и изображений. Многочисленные эксперименты демонстрируют, что наша модель не только достигает высокой точности в синтезе анимации лица, но и расширяет диапазон выразительности и адаптируемости стилей в 3D-анимации лица.
English
The synthesis of 3D facial animations from speech has garnered considerable
attention. Due to the scarcity of high-quality 4D facial data and
well-annotated abundant multi-modality labels, previous methods often suffer
from limited realism and a lack of lexible conditioning. We address this
challenge through a trilogy. We first introduce Generalized Neural Parametric
Facial Asset (GNPFA), an efficient variational auto-encoder mapping facial
geometry and images to a highly generalized expression latent space, decoupling
expressions and identities. Then, we utilize GNPFA to extract high-quality
expressions and accurate head poses from a large array of videos. This presents
the M2F-D dataset, a large, diverse, and scan-level co-speech 3D facial
animation dataset with well-annotated emotional and style labels. Finally, we
propose Media2Face, a diffusion model in GNPFA latent space for co-speech
facial animation generation, accepting rich multi-modality guidances from
audio, text, and image. Extensive experiments demonstrate that our model not
only achieves high fidelity in facial animation synthesis but also broadens the
scope of expressiveness and style adaptability in 3D facial animation.