Ada-TTA: Op weg naar adaptieve hoogwaardige tekst-naar-sprekende-avatar-synthese
Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis
June 6, 2023
Auteurs: Zhenhui Ye, Ziyue Jiang, Yi Ren, Jinglin Liu, Chen Zhang, Xiang Yin, Zejun Ma, Zhou Zhao
cs.AI
Samenvatting
We zijn geïnteresseerd in een nieuwe taak, namelijk low-resource tekst-naar-sprekende avatar. Gegeven slechts een video van enkele minuten van een sprekend persoon met het audiospoor als trainingsdata en willekeurige teksten als invoer, streven we ernaar om hoogwaardige sprekende portretvideo's te genereren die overeenkomen met de invoertekst. Deze taak heeft brede toepassingsmogelijkheden in de digitale mensindustrie, maar is technisch nog niet gerealiseerd vanwege twee uitdagingen: (1) Het is uitdagend om de klankkleur van audio buiten het domein na te bootsen voor een traditioneel multi-speaker Text-to-Speech-systeem. (2) Het is moeilijk om hoogwaardige en lipgesynchroniseerde sprekende avatars te renderen met beperkte trainingsdata. In dit artikel introduceren we Adaptive Text-to-Talking Avatar (Ada-TTA), dat (1) een generiek zero-shot multi-speaker TTS-model ontwerpt dat tekstinhoud, klankkleur en prosodie goed ontwart; en (2) recente vooruitgang in neurale rendering omarmt om realistische audio-gestuurde sprekende gezichtsvideo's te genereren. Met deze ontwerpen overwint onze methode de bovengenoemde twee uitdagingen en slaagt erin om identiteit-behoudende spraak en realistische sprekende persoonvideo's te genereren. Experimenten tonen aan dat onze methode realistische, identiteit-behoudende en audio-visueel gesynchroniseerde sprekende avatarvideo's kan synthetiseren.
English
We are interested in a novel task, namely low-resource text-to-talking
avatar. Given only a few-minute-long talking person video with the audio track
as the training data and arbitrary texts as the driving input, we aim to
synthesize high-quality talking portrait videos corresponding to the input
text. This task has broad application prospects in the digital human industry
but has not been technically achieved yet due to two challenges: (1) It is
challenging to mimic the timbre from out-of-domain audio for a traditional
multi-speaker Text-to-Speech system. (2) It is hard to render high-fidelity and
lip-synchronized talking avatars with limited training data. In this paper, we
introduce Adaptive Text-to-Talking Avatar (Ada-TTA), which (1) designs a
generic zero-shot multi-speaker TTS model that well disentangles the text
content, timbre, and prosody; and (2) embraces recent advances in neural
rendering to achieve realistic audio-driven talking face video generation. With
these designs, our method overcomes the aforementioned two challenges and
achieves to generate identity-preserving speech and realistic talking person
video. Experiments demonstrate that our method could synthesize realistic,
identity-preserving, and audio-visual synchronized talking avatar videos.