ChatPaper.aiChatPaper

Ada-TTA: Hacia la Síntesis Adaptativa de Avatares Hablantes de Alta Calidad

Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis

June 6, 2023
Autores: Zhenhui Ye, Ziyue Jiang, Yi Ren, Jinglin Liu, Chen Zhang, Xiang Yin, Zejun Ma, Zhou Zhao
cs.AI

Resumen

Nos enfocamos en una tarea novedosa: la creación de avatares parlantes con recursos limitados. Dado un video de pocos minutos de una persona hablando, que incluye la pista de audio como datos de entrenamiento, y textos arbitrarios como entrada de control, nuestro objetivo es sintetizar videos de retratos parlantes de alta calidad que correspondan al texto de entrada. Esta tarea tiene amplias perspectivas de aplicación en la industria de los humanos digitales, pero aún no se ha logrado técnicamente debido a dos desafíos principales: (1) Es difícil imitar el timbre de audio fuera del dominio para un sistema tradicional de conversión de texto a voz (TTS) multi-hablante. (2) Es complicado renderizar avatares parlantes de alta fidelidad y sincronizados labialmente con datos de entrenamiento limitados. En este artículo, presentamos Adaptive Text-to-Talking Avatar (Ada-TTA), que (1) diseña un modelo genérico de TTS multi-hablante de cero disparos que desentrelaza eficazmente el contenido del texto, el timbre y la prosodia; y (2) aprovecha los avances recientes en renderizado neuronal para lograr la generación realista de videos de rostros parlantes impulsados por audio. Con estos diseños, nuestro método supera los dos desafíos mencionados y logra generar discursos que preservan la identidad y videos realistas de personas hablando. Los experimentos demuestran que nuestro método puede sintetizar videos de avatares parlantes realistas, que preservan la identidad y están sincronizados audio-visualmente.
English
We are interested in a novel task, namely low-resource text-to-talking avatar. Given only a few-minute-long talking person video with the audio track as the training data and arbitrary texts as the driving input, we aim to synthesize high-quality talking portrait videos corresponding to the input text. This task has broad application prospects in the digital human industry but has not been technically achieved yet due to two challenges: (1) It is challenging to mimic the timbre from out-of-domain audio for a traditional multi-speaker Text-to-Speech system. (2) It is hard to render high-fidelity and lip-synchronized talking avatars with limited training data. In this paper, we introduce Adaptive Text-to-Talking Avatar (Ada-TTA), which (1) designs a generic zero-shot multi-speaker TTS model that well disentangles the text content, timbre, and prosody; and (2) embraces recent advances in neural rendering to achieve realistic audio-driven talking face video generation. With these designs, our method overcomes the aforementioned two challenges and achieves to generate identity-preserving speech and realistic talking person video. Experiments demonstrate that our method could synthesize realistic, identity-preserving, and audio-visual synchronized talking avatar videos.
PDF81December 15, 2024