RealTalk: 3D 얼굴 사전 지식 기반 정체성 정렬 네트워크를 통한 실시간 및 사실적인 오디오 기반 얼굴 생성
RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network
June 26, 2024
저자: Xiaozhong Ji, Chuming Lin, Zhonggan Ding, Ying Tai, Jian Yang, Junwei Zhu, Xiaobin Hu, Jiangning Zhang, Donghao Luo, Chengjie Wang
cs.AI
초록
개인에 구애받지 않는 오디오 기반 얼굴 생성은 컴퓨터 비전 분야에서 도전적인 과제입니다. 기존 방법들은 오디오-비주얼 동기화에서 놀라운 진전을 이루었지만, 현재 결과와 실제 응용 간에는 여전히 상당한 격차가 존재합니다. 이 문제는 두 가지 측면에서 도전적입니다: 1) 고정밀 입술 동기화를 달성하기 위한 고유한 개인 특성 보존. 2) 실시간 성능에서 고품질 얼굴 렌더링 생성. 본 논문에서는 오디오-표현 변환기와 고품질 표현-얼굴 렌더러로 구성된 새로운 일반화된 오디오 기반 프레임워크 RealTalk를 제안합니다. 첫 번째 구성 요소에서는 발화 시 입술 움직임과 관련된 신원 및 개인 내 변이 특성을 모두 고려합니다. 풍부한 얼굴 사전 정보에 대한 크로스 모달 어텐션을 통합함으로써, 입술 움직임을 오디오와 효과적으로 정렬하여 더 정밀한 표현 예측을 달성할 수 있습니다. 두 번째 구성 요소에서는 입 모양 제어 구조와 얼굴 텍스처 참조 구조를 포함한 경량화된 얼굴 신원 정렬(FIA) 모듈을 설계했습니다. 이 새로운 설계는 복잡하고 비효율적인 특징 정렬 모듈에 의존하지 않고도 실시간으로 세부 사항을 생성할 수 있게 해줍니다. 공개 데이터셋에서의 정량적 및 정성적 실험 결과는 우리 방법이 입술-음성 동기화 및 생성 품질 측면에서 명확한 우위를 보임을 입증합니다. 또한, 우리 방법은 효율적이며 더 적은 계산 자원을 요구하여 실제 응용의 요구를 충족시키기에 적합합니다.
English
Person-generic audio-driven face generation is a challenging task in computer
vision. Previous methods have achieved remarkable progress in audio-visual
synchronization, but there is still a significant gap between current results
and practical applications. The challenges are two-fold: 1) Preserving unique
individual traits for achieving high-precision lip synchronization. 2)
Generating high-quality facial renderings in real-time performance. In this
paper, we propose a novel generalized audio-driven framework RealTalk, which
consists of an audio-to-expression transformer and a high-fidelity
expression-to-face renderer. In the first component, we consider both identity
and intra-personal variation features related to speaking lip movements. By
incorporating cross-modal attention on the enriched facial priors, we can
effectively align lip movements with audio, thus attaining greater precision in
expression prediction. In the second component, we design a lightweight facial
identity alignment (FIA) module which includes a lip-shape control structure
and a face texture reference structure. This novel design allows us to generate
fine details in real-time, without depending on sophisticated and inefficient
feature alignment modules. Our experimental results, both quantitative and
qualitative, on public datasets demonstrate the clear advantages of our method
in terms of lip-speech synchronization and generation quality. Furthermore, our
method is efficient and requires fewer computational resources, making it
well-suited to meet the needs of practical applications.Summary
AI-Generated Summary