Ada-TTA: Auf dem Weg zu einer adaptiven, hochwertigen Text-zu-Sprechender-Avatar-Synthese
Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis
June 6, 2023
Autoren: Zhenhui Ye, Ziyue Jiang, Yi Ren, Jinglin Liu, Chen Zhang, Xiang Yin, Zejun Ma, Zhou Zhao
cs.AI
Zusammenfassung
Wir beschäftigen uns mit einer neuartigen Aufgabe, nämlich der Erstellung von sprechenden Avataren unter ressourcenarmen Bedingungen. Gegeben ist lediglich ein kurzes Video einer sprechenden Person mit Audiospur als Trainingsdaten und beliebige Texte als Eingabe. Unser Ziel ist es, hochwertige Videos von sprechenden Porträts zu synthetisieren, die dem Eingabetext entsprechen. Diese Aufgabe hat vielversprechende Anwendungsmöglichkeiten in der digitalen Mensch-Industrie, wurde jedoch aufgrund zweier Herausforderungen bisher technisch nicht realisiert: (1) Es ist schwierig, den Klang von außerhalb des Trainingsbereichs liegenden Audiodaten für ein traditionelles Mehrsprecher-Text-zu-Sprache-System nachzuahmen. (2) Es ist anspruchsvoll, hochwertige und lippensynchronisierte sprechende Avatare mit begrenzten Trainingsdaten zu rendern. In diesem Artikel stellen wir Adaptive Text-to-Talking Avatar (Ada-TTA) vor, das (1) ein generisches Zero-Shot-Mehrsprecher-TTS-Modell entwirft, das Textinhalt, Klang und Prosodie effektiv entkoppelt, und (2) aktuelle Fortschritte im neuronalen Rendering nutzt, um realistische, audiodynamische sprechende Gesichtsvideos zu erzeugen. Mit diesen Konzepten überwindet unsere Methode die genannten Herausforderungen und ermöglicht die Erzeugung von identitätsbewahrender Sprache und realistischen Videos von sprechenden Personen. Experimente zeigen, dass unsere Methode realistische, identitätsbewahrende und audiovisuell synchronisierte Videos von sprechenden Avataren synthetisieren kann.
English
We are interested in a novel task, namely low-resource text-to-talking
avatar. Given only a few-minute-long talking person video with the audio track
as the training data and arbitrary texts as the driving input, we aim to
synthesize high-quality talking portrait videos corresponding to the input
text. This task has broad application prospects in the digital human industry
but has not been technically achieved yet due to two challenges: (1) It is
challenging to mimic the timbre from out-of-domain audio for a traditional
multi-speaker Text-to-Speech system. (2) It is hard to render high-fidelity and
lip-synchronized talking avatars with limited training data. In this paper, we
introduce Adaptive Text-to-Talking Avatar (Ada-TTA), which (1) designs a
generic zero-shot multi-speaker TTS model that well disentangles the text
content, timbre, and prosody; and (2) embraces recent advances in neural
rendering to achieve realistic audio-driven talking face video generation. With
these designs, our method overcomes the aforementioned two challenges and
achieves to generate identity-preserving speech and realistic talking person
video. Experiments demonstrate that our method could synthesize realistic,
identity-preserving, and audio-visual synchronized talking avatar videos.