Ada-TTA: Verso una Sintesi Adattiva di Avatar Parlanti di Alta Qualità
Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis
June 6, 2023
Autori: Zhenhui Ye, Ziyue Jiang, Yi Ren, Jinglin Liu, Chen Zhang, Xiang Yin, Zejun Ma, Zhou Zhao
cs.AI
Abstract
Siamo interessati a un compito innovativo, ovvero la creazione di avatar parlanti con risorse limitate. Dato un video di pochi minuti di una persona che parla, completo di traccia audio, come dati di addestramento e testi arbitrari come input di guida, il nostro obiettivo è sintetizzare video di ritratti parlanti di alta qualità corrispondenti al testo in ingresso. Questo compito ha ampie prospettive di applicazione nell'industria degli esseri umani digitali, ma non è stato ancora raggiunto tecnicamente a causa di due sfide: (1) È difficile imitare il timbro da audio fuori dominio per un tradizionale sistema di sintesi vocale multi-parlante (Text-to-Speech). (2) È complesso rendere avatar parlanti ad alta fedeltà e sincronizzati labialmente con dati di addestramento limitati. In questo articolo, introduciamo Adaptive Text-to-Talking Avatar (Ada-TTA), che (1) progetta un modello generico di sintesi vocale multi-parlante zero-shot che ben separa il contenuto testuale, il timbro e la prosodia; e (2) sfrutta i recenti progressi nel rendering neurale per ottenere una generazione realistica di video di volti parlanti guidati dall'audio. Con queste soluzioni, il nostro metodo supera le due sfide menzionate e riesce a generare discorsi che preservano l'identità e video realistici di persone parlanti. Gli esperimenti dimostrano che il nostro metodo è in grado di sintetizzare video di avatar parlanti realistici, che preservano l'identità e sono sincronizzati audio-visivamente.
English
We are interested in a novel task, namely low-resource text-to-talking
avatar. Given only a few-minute-long talking person video with the audio track
as the training data and arbitrary texts as the driving input, we aim to
synthesize high-quality talking portrait videos corresponding to the input
text. This task has broad application prospects in the digital human industry
but has not been technically achieved yet due to two challenges: (1) It is
challenging to mimic the timbre from out-of-domain audio for a traditional
multi-speaker Text-to-Speech system. (2) It is hard to render high-fidelity and
lip-synchronized talking avatars with limited training data. In this paper, we
introduce Adaptive Text-to-Talking Avatar (Ada-TTA), which (1) designs a
generic zero-shot multi-speaker TTS model that well disentangles the text
content, timbre, and prosody; and (2) embraces recent advances in neural
rendering to achieve realistic audio-driven talking face video generation. With
these designs, our method overcomes the aforementioned two challenges and
achieves to generate identity-preserving speech and realistic talking person
video. Experiments demonstrate that our method could synthesize realistic,
identity-preserving, and audio-visual synchronized talking avatar videos.