ChatPaper.aiChatPaper

Media2Face: 다중 모달리티 지도를 활용한 동시 발화 얼굴 애니메이션 생성

Media2Face: Co-speech Facial Animation Generation With Multi-Modality Guidance

January 28, 2024
저자: Qingcheng Zhao, Pengyu Long, Qixuan Zhang, Dafei Qin, Han Liang, Longwen Zhang, Yingliang Zhang, Jingyi Yu, Lan Xu
cs.AI

초록

음성에서 3D 얼굴 애니메이션을 합성하는 기술은 상당한 관심을 받아 왔다. 고품질의 4D 얼굴 데이터와 잘 주석된 다양한 다중 모달리티 레이블의 부족으로 인해, 기존 방법들은 종종 제한된 현실감과 유연한 조건 설정의 부재로 어려움을 겪어왔다. 우리는 이러한 문제를 삼부작으로 해결한다. 먼저, 일반화된 신경망 파라미터 얼굴 자산(Generalized Neural Parametric Facial Asset, GNPFA)을 소개한다. 이는 얼굴 기하학과 이미지를 고도로 일반화된 표현 잠재 공간으로 매핑하는 효율적인 변이형 자동 인코더로, 표현과 신원을 분리한다. 다음으로, GNPFA를 활용하여 다양한 비디오에서 고품질의 표현과 정확한 머리 포즈를 추출한다. 이를 통해 M2F-D 데이터셋을 제시하는데, 이는 잘 주석된 감정 및 스타일 레이블이 포함된 대규모, 다양하며 스캔 수준의 동시 발화 3D 얼굴 애니메이션 데이터셋이다. 마지막으로, GNPFA 잠재 공간에서 동시 발화 얼굴 애니메이션 생성을 위한 확산 모델인 Media2Face를 제안한다. 이 모델은 오디오, 텍스트, 이미지로부터 풍부한 다중 모달리티 지침을 수용한다. 광범위한 실험을 통해 우리의 모델이 얼굴 애니메이션 합성에서 높은 충실도를 달성할 뿐만 아니라, 3D 얼굴 애니메이션의 표현 범위와 스타일 적응성을 확장함을 입증한다.
English
The synthesis of 3D facial animations from speech has garnered considerable attention. Due to the scarcity of high-quality 4D facial data and well-annotated abundant multi-modality labels, previous methods often suffer from limited realism and a lack of lexible conditioning. We address this challenge through a trilogy. We first introduce Generalized Neural Parametric Facial Asset (GNPFA), an efficient variational auto-encoder mapping facial geometry and images to a highly generalized expression latent space, decoupling expressions and identities. Then, we utilize GNPFA to extract high-quality expressions and accurate head poses from a large array of videos. This presents the M2F-D dataset, a large, diverse, and scan-level co-speech 3D facial animation dataset with well-annotated emotional and style labels. Finally, we propose Media2Face, a diffusion model in GNPFA latent space for co-speech facial animation generation, accepting rich multi-modality guidances from audio, text, and image. Extensive experiments demonstrate that our model not only achieves high fidelity in facial animation synthesis but also broadens the scope of expressiveness and style adaptability in 3D facial animation.
PDF254December 15, 2024