Ada-TTA: Op weg naar adaptieve hoogwaardige tekst-naar-sprekende-avatar-synthese

Samenvatting

We zijn geïnteresseerd in een nieuwe taak, namelijk low-resource tekst-naar-sprekende avatar. Gegeven slechts een video van enkele minuten van een sprekend persoon met het audiospoor als trainingsdata en willekeurige teksten als invoer, streven we ernaar om hoogwaardige sprekende portretvideo's te genereren die overeenkomen met de invoertekst. Deze taak heeft brede toepassingsmogelijkheden in de digitale mensindustrie, maar is technisch nog niet gerealiseerd vanwege twee uitdagingen: (1) Het is uitdagend om de klankkleur van audio buiten het domein na te bootsen voor een traditioneel multi-speaker Text-to-Speech-systeem. (2) Het is moeilijk om hoogwaardige en lipgesynchroniseerde sprekende avatars te renderen met beperkte trainingsdata. In dit artikel introduceren we Adaptive Text-to-Talking Avatar (Ada-TTA), dat (1) een generiek zero-shot multi-speaker TTS-model ontwerpt dat tekstinhoud, klankkleur en prosodie goed ontwart; en (2) recente vooruitgang in neurale rendering omarmt om realistische audio-gestuurde sprekende gezichtsvideo's te genereren. Met deze ontwerpen overwint onze methode de bovengenoemde twee uitdagingen en slaagt erin om identiteit-behoudende spraak en realistische sprekende persoonvideo's te genereren. Experimenten tonen aan dat onze methode realistische, identiteit-behoudende en audio-visueel gesynchroniseerde sprekende avatarvideo's kan synthetiseren.

English

We are interested in a novel task, namely low-resource text-to-talking avatar. Given only a few-minute-long talking person video with the audio track as the training data and arbitrary texts as the driving input, we aim to synthesize high-quality talking portrait videos corresponding to the input text. This task has broad application prospects in the digital human industry but has not been technically achieved yet due to two challenges: (1) It is challenging to mimic the timbre from out-of-domain audio for a traditional multi-speaker Text-to-Speech system. (2) It is hard to render high-fidelity and lip-synchronized talking avatars with limited training data. In this paper, we introduce Adaptive Text-to-Talking Avatar (Ada-TTA), which (1) designs a generic zero-shot multi-speaker TTS model that well disentangles the text content, timbre, and prosody; and (2) embraces recent advances in neural rendering to achieve realistic audio-driven talking face video generation. With these designs, our method overcomes the aforementioned two challenges and achieves to generate identity-preserving speech and realistic talking person video. Experiments demonstrate that our method could synthesize realistic, identity-preserving, and audio-visual synchronized talking avatar videos.

Ada-TTA: Op weg naar adaptieve hoogwaardige tekst-naar-sprekende-avatar-synthese

Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis

Samenvatting

Support