ChatPaper.aiChatPaper

Ada-TTA: В направлении адаптивного синтеза высококачественных говорящих аватаров на основе текста

Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis

June 6, 2023
Авторы: Zhenhui Ye, Ziyue Jiang, Yi Ren, Jinglin Liu, Chen Zhang, Xiang Yin, Zejun Ma, Zhou Zhao
cs.AI

Аннотация

Мы рассматриваем новую задачу, а именно создание говорящего аватара с ограниченными ресурсами. Имея в качестве обучающих данных лишь короткое видео говорящего человека с аудиодорожкой и произвольные тексты в качестве входных данных, мы стремимся синтезировать высококачественные видеоролики говорящего портрета, соответствующие входному тексту. Эта задача имеет широкие перспективы применения в индустрии цифровых людей, но до сих пор не была технически реализована из-за двух основных проблем: (1) Традиционной системе синтеза речи для нескольких говорящих сложно воспроизвести тембр из аудио, выходящего за пределы обучающей области. (2) Сложно создать высококачественные и синхронизированные с губами говорящие аватары при ограниченных обучающих данных. В данной статье мы представляем Adaptive Text-to-Talking Avatar (Ada-TTA), который (1) разрабатывает универсальную модель синтеза речи для нескольких говорящих с нулевым обучением, эффективно разделяющую текстовое содержание, тембр и просодию; и (2) использует последние достижения в области нейронного рендеринга для создания реалистичных видео говорящего лица, управляемых аудио. Благодаря этим решениям наш метод преодолевает упомянутые проблемы и позволяет генерировать речь, сохраняющую идентичность, и реалистичные видео говорящего человека. Эксперименты показывают, что наш метод способен синтезировать реалистичные, сохраняющие идентичность и аудиовизуально синхронизированные видео говорящих аватаров.
English
We are interested in a novel task, namely low-resource text-to-talking avatar. Given only a few-minute-long talking person video with the audio track as the training data and arbitrary texts as the driving input, we aim to synthesize high-quality talking portrait videos corresponding to the input text. This task has broad application prospects in the digital human industry but has not been technically achieved yet due to two challenges: (1) It is challenging to mimic the timbre from out-of-domain audio for a traditional multi-speaker Text-to-Speech system. (2) It is hard to render high-fidelity and lip-synchronized talking avatars with limited training data. In this paper, we introduce Adaptive Text-to-Talking Avatar (Ada-TTA), which (1) designs a generic zero-shot multi-speaker TTS model that well disentangles the text content, timbre, and prosody; and (2) embraces recent advances in neural rendering to achieve realistic audio-driven talking face video generation. With these designs, our method overcomes the aforementioned two challenges and achieves to generate identity-preserving speech and realistic talking person video. Experiments demonstrate that our method could synthesize realistic, identity-preserving, and audio-visual synchronized talking avatar videos.
PDF81December 15, 2024