Ada-TTA: 적응형 고품질 텍스트-투-토킹 아바타 합성을 위한 연구
Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis
June 6, 2023
저자: Zhenhui Ye, Ziyue Jiang, Yi Ren, Jinglin Liu, Chen Zhang, Xiang Yin, Zejun Ma, Zhou Zhao
cs.AI
초록
우리는 새로운 과제, 즉 저자원 텍스트-투-토킹 아바타(Text-to-Talking Avatar)에 관심을 가지고 있습니다. 단 몇 분 길이의 오디오 트랙이 포함된 토킹 비디오를 학습 데이터로 사용하고, 임의의 텍스트를 입력으로 주어졌을 때, 입력 텍스트에 해당하는 고품질의 토킹 포트레이트 비디오를 합성하는 것이 목표입니다. 이 과제는 디지털 휴먼 산업에서 광범위한 응용 가능성을 지니고 있지만, 두 가지 도전 과제로 인해 기술적으로 아직 달성되지 못했습니다: (1) 기존의 다중 화자 텍스트-투-스피치(Text-to-Speech) 시스템이 도메인 외 오디오에서 음색을 모방하는 것은 어려운 과제입니다. (2) 제한된 학습 데이터로 고화질이고 입술 동기화가 잘 된 토킹 아바타를 렌더링하는 것은 어려운 작업입니다. 본 논문에서는 적응형 텍스트-투-토킹 아바타(Adaptive Text-to-Talking Avatar, Ada-TTA)를 소개합니다. 이 방법은 (1) 텍스트 내용, 음색, 운율을 잘 분리하는 일반적인 제로샷 다중 화자 TTS 모델을 설계하고, (2) 최신 신경 렌더링 기술을 활용하여 현실적인 오디오 기반 토킹 페이스 비디오 생성을 달성합니다. 이러한 설계를 통해, 우리의 방법은 앞서 언급한 두 가지 도전 과제를 극복하고, 신원을 보존하는 음성과 현실적인 토킹 비디오를 생성할 수 있습니다. 실험 결과, 우리의 방법은 현실적이고 신원을 보존하며 오디오-비주얼 동기화가 잘 된 토킹 아바타 비디오를 합성할 수 있음을 보여줍니다.
English
We are interested in a novel task, namely low-resource text-to-talking
avatar. Given only a few-minute-long talking person video with the audio track
as the training data and arbitrary texts as the driving input, we aim to
synthesize high-quality talking portrait videos corresponding to the input
text. This task has broad application prospects in the digital human industry
but has not been technically achieved yet due to two challenges: (1) It is
challenging to mimic the timbre from out-of-domain audio for a traditional
multi-speaker Text-to-Speech system. (2) It is hard to render high-fidelity and
lip-synchronized talking avatars with limited training data. In this paper, we
introduce Adaptive Text-to-Talking Avatar (Ada-TTA), which (1) designs a
generic zero-shot multi-speaker TTS model that well disentangles the text
content, timbre, and prosody; and (2) embraces recent advances in neural
rendering to achieve realistic audio-driven talking face video generation. With
these designs, our method overcomes the aforementioned two challenges and
achieves to generate identity-preserving speech and realistic talking person
video. Experiments demonstrate that our method could synthesize realistic,
identity-preserving, and audio-visual synchronized talking avatar videos.