Media2Face: 다중 모달리티 지도를 활용한 동시 발화 얼굴 애니메이션 생성
Media2Face: Co-speech Facial Animation Generation With Multi-Modality Guidance
January 28, 2024
저자: Qingcheng Zhao, Pengyu Long, Qixuan Zhang, Dafei Qin, Han Liang, Longwen Zhang, Yingliang Zhang, Jingyi Yu, Lan Xu
cs.AI
초록
음성에서 3D 얼굴 애니메이션을 합성하는 기술은 상당한 관심을 받아 왔다. 고품질의 4D 얼굴 데이터와 잘 주석된 다양한 다중 모달리티 레이블의 부족으로 인해, 기존 방법들은 종종 제한된 현실감과 유연한 조건 설정의 부재로 어려움을 겪어왔다. 우리는 이러한 문제를 삼부작으로 해결한다. 먼저, 일반화된 신경망 파라미터 얼굴 자산(Generalized Neural Parametric Facial Asset, GNPFA)을 소개한다. 이는 얼굴 기하학과 이미지를 고도로 일반화된 표현 잠재 공간으로 매핑하는 효율적인 변이형 자동 인코더로, 표현과 신원을 분리한다. 다음으로, GNPFA를 활용하여 다양한 비디오에서 고품질의 표현과 정확한 머리 포즈를 추출한다. 이를 통해 M2F-D 데이터셋을 제시하는데, 이는 잘 주석된 감정 및 스타일 레이블이 포함된 대규모, 다양하며 스캔 수준의 동시 발화 3D 얼굴 애니메이션 데이터셋이다. 마지막으로, GNPFA 잠재 공간에서 동시 발화 얼굴 애니메이션 생성을 위한 확산 모델인 Media2Face를 제안한다. 이 모델은 오디오, 텍스트, 이미지로부터 풍부한 다중 모달리티 지침을 수용한다. 광범위한 실험을 통해 우리의 모델이 얼굴 애니메이션 합성에서 높은 충실도를 달성할 뿐만 아니라, 3D 얼굴 애니메이션의 표현 범위와 스타일 적응성을 확장함을 입증한다.
English
The synthesis of 3D facial animations from speech has garnered considerable
attention. Due to the scarcity of high-quality 4D facial data and
well-annotated abundant multi-modality labels, previous methods often suffer
from limited realism and a lack of lexible conditioning. We address this
challenge through a trilogy. We first introduce Generalized Neural Parametric
Facial Asset (GNPFA), an efficient variational auto-encoder mapping facial
geometry and images to a highly generalized expression latent space, decoupling
expressions and identities. Then, we utilize GNPFA to extract high-quality
expressions and accurate head poses from a large array of videos. This presents
the M2F-D dataset, a large, diverse, and scan-level co-speech 3D facial
animation dataset with well-annotated emotional and style labels. Finally, we
propose Media2Face, a diffusion model in GNPFA latent space for co-speech
facial animation generation, accepting rich multi-modality guidances from
audio, text, and image. Extensive experiments demonstrate that our model not
only achieves high fidelity in facial animation synthesis but also broadens the
scope of expressiveness and style adaptability in 3D facial animation.