Ada-TTA: Auf dem Weg zu einer adaptiven, hochwertigen Text-zu-Sprechender-Avatar-Synthese

Zusammenfassung

Wir beschäftigen uns mit einer neuartigen Aufgabe, nämlich der Erstellung von sprechenden Avataren unter ressourcenarmen Bedingungen. Gegeben ist lediglich ein kurzes Video einer sprechenden Person mit Audiospur als Trainingsdaten und beliebige Texte als Eingabe. Unser Ziel ist es, hochwertige Videos von sprechenden Porträts zu synthetisieren, die dem Eingabetext entsprechen. Diese Aufgabe hat vielversprechende Anwendungsmöglichkeiten in der digitalen Mensch-Industrie, wurde jedoch aufgrund zweier Herausforderungen bisher technisch nicht realisiert: (1) Es ist schwierig, den Klang von außerhalb des Trainingsbereichs liegenden Audiodaten für ein traditionelles Mehrsprecher-Text-zu-Sprache-System nachzuahmen. (2) Es ist anspruchsvoll, hochwertige und lippensynchronisierte sprechende Avatare mit begrenzten Trainingsdaten zu rendern. In diesem Artikel stellen wir Adaptive Text-to-Talking Avatar (Ada-TTA) vor, das (1) ein generisches Zero-Shot-Mehrsprecher-TTS-Modell entwirft, das Textinhalt, Klang und Prosodie effektiv entkoppelt, und (2) aktuelle Fortschritte im neuronalen Rendering nutzt, um realistische, audiodynamische sprechende Gesichtsvideos zu erzeugen. Mit diesen Konzepten überwindet unsere Methode die genannten Herausforderungen und ermöglicht die Erzeugung von identitätsbewahrender Sprache und realistischen Videos von sprechenden Personen. Experimente zeigen, dass unsere Methode realistische, identitätsbewahrende und audiovisuell synchronisierte Videos von sprechenden Avataren synthetisieren kann.

English

We are interested in a novel task, namely low-resource text-to-talking avatar. Given only a few-minute-long talking person video with the audio track as the training data and arbitrary texts as the driving input, we aim to synthesize high-quality talking portrait videos corresponding to the input text. This task has broad application prospects in the digital human industry but has not been technically achieved yet due to two challenges: (1) It is challenging to mimic the timbre from out-of-domain audio for a traditional multi-speaker Text-to-Speech system. (2) It is hard to render high-fidelity and lip-synchronized talking avatars with limited training data. In this paper, we introduce Adaptive Text-to-Talking Avatar (Ada-TTA), which (1) designs a generic zero-shot multi-speaker TTS model that well disentangles the text content, timbre, and prosody; and (2) embraces recent advances in neural rendering to achieve realistic audio-driven talking face video generation. With these designs, our method overcomes the aforementioned two challenges and achieves to generate identity-preserving speech and realistic talking person video. Experiments demonstrate that our method could synthesize realistic, identity-preserving, and audio-visual synchronized talking avatar videos.

Ada-TTA: Auf dem Weg zu einer adaptiven, hochwertigen Text-zu-Sprechender-Avatar-Synthese

Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis

Zusammenfassung

Support