ChatPaper.aiChatPaper

Ada-TTA : Vers une synthèse adaptative d'avatars parlants de haute qualité

Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis

June 6, 2023
Auteurs: Zhenhui Ye, Ziyue Jiang, Yi Ren, Jinglin Liu, Chen Zhang, Xiang Yin, Zejun Ma, Zhou Zhao
cs.AI

Résumé

Nous nous intéressons à une nouvelle tâche, à savoir la génération d'avatars parlants avec peu de ressources. En utilisant uniquement une vidéo de quelques minutes d'une personne parlante avec sa piste audio comme données d'entraînement et des textes arbitraires comme entrée motrice, nous visons à synthétiser des vidéos de portraits parlants de haute qualité correspondant au texte d'entrée. Cette tâche présente de vastes perspectives d'application dans l'industrie des humains numériques, mais n'a pas encore été techniquement réalisée en raison de deux défis : (1) Il est difficile d'imiter le timbre à partir d'audio hors domaine pour un système traditionnel de synthèse vocale multi-locuteurs. (2) Il est complexe de générer des avatars parlants de haute fidélité et synchronisés au niveau des lèvres avec des données d'entraînement limitées. Dans cet article, nous présentons Adaptive Text-to-Talking Avatar (Ada-TTA), qui (1) conçoit un modèle générique de synthèse vocale multi-locuteurs en zero-shot qui dissocie efficacement le contenu textuel, le timbre et la prosodie ; et (2) intègre les avancées récentes en rendu neuronal pour réaliser une génération réaliste de vidéos de visages parlants pilotées par l'audio. Grâce à ces conceptions, notre méthode surmonte les deux défis mentionnés ci-dessus et parvient à générer une parole préservant l'identité et des vidéos réalistes de personnes parlantes. Les expériences démontrent que notre méthode peut synthétiser des vidéos d'avatars parlants réalistes, préservant l'identité et synchronisées audio-visuellement.
English
We are interested in a novel task, namely low-resource text-to-talking avatar. Given only a few-minute-long talking person video with the audio track as the training data and arbitrary texts as the driving input, we aim to synthesize high-quality talking portrait videos corresponding to the input text. This task has broad application prospects in the digital human industry but has not been technically achieved yet due to two challenges: (1) It is challenging to mimic the timbre from out-of-domain audio for a traditional multi-speaker Text-to-Speech system. (2) It is hard to render high-fidelity and lip-synchronized talking avatars with limited training data. In this paper, we introduce Adaptive Text-to-Talking Avatar (Ada-TTA), which (1) designs a generic zero-shot multi-speaker TTS model that well disentangles the text content, timbre, and prosody; and (2) embraces recent advances in neural rendering to achieve realistic audio-driven talking face video generation. With these designs, our method overcomes the aforementioned two challenges and achieves to generate identity-preserving speech and realistic talking person video. Experiments demonstrate that our method could synthesize realistic, identity-preserving, and audio-visual synchronized talking avatar videos.
PDF81December 15, 2024