Ada-TTA: Rumo à Síntese Adaptativa de Avatares Falantes de Alta Qualidade

Resumo

Estamos interessados em uma nova tarefa, nomeadamente a criação de avatares falantes com baixo recurso de texto para fala. Dado apenas um vídeo de uma pessoa falando com alguns minutos de duração, incluindo a trilha de áudio, como dados de treinamento e textos arbitrários como entrada de controle, nosso objetivo é sintetizar vídeos de retratos falantes de alta qualidade correspondentes ao texto de entrada. Essa tarefa tem amplas perspectivas de aplicação na indústria de humanos digitais, mas ainda não foi tecnicamente alcançada devido a dois desafios: (1) É desafiador imitar o timbre de áudio fora do domínio para um sistema tradicional de Text-to-Speech (TTS) multi-falante. (2) É difícil renderizar avatares falantes com alta fidelidade e sincronização labial com dados de treinamento limitados. Neste artigo, apresentamos o Adaptive Text-to-Talking Avatar (Ada-TTA), que (1) projeta um modelo genérico de TTS multi-falante zero-shot que bem desembaraça o conteúdo do texto, o timbre e a prosódia; e (2) incorpora avanços recentes em renderização neural para alcançar a geração realista de vídeos de rostos falantes impulsionados por áudio. Com esses projetos, nosso método supera os dois desafios mencionados e consegue gerar fala que preserva a identidade e vídeos realistas de pessoas falando. Experimentos demonstram que nosso método pode sintetizar vídeos de avatares falantes realistas, que preservam a identidade e estão sincronizados áudio-visualmente.

English

We are interested in a novel task, namely low-resource text-to-talking avatar. Given only a few-minute-long talking person video with the audio track as the training data and arbitrary texts as the driving input, we aim to synthesize high-quality talking portrait videos corresponding to the input text. This task has broad application prospects in the digital human industry but has not been technically achieved yet due to two challenges: (1) It is challenging to mimic the timbre from out-of-domain audio for a traditional multi-speaker Text-to-Speech system. (2) It is hard to render high-fidelity and lip-synchronized talking avatars with limited training data. In this paper, we introduce Adaptive Text-to-Talking Avatar (Ada-TTA), which (1) designs a generic zero-shot multi-speaker TTS model that well disentangles the text content, timbre, and prosody; and (2) embraces recent advances in neural rendering to achieve realistic audio-driven talking face video generation. With these designs, our method overcomes the aforementioned two challenges and achieves to generate identity-preserving speech and realistic talking person video. Experiments demonstrate that our method could synthesize realistic, identity-preserving, and audio-visual synchronized talking avatar videos.

Ada-TTA: Rumo à Síntese Adaptativa de Avatares Falantes de Alta Qualidade

Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis

Resumo

Support