ChatPaper.aiChatPaper

Ada-TTA:適応的高品質テキスト音声アバター合成に向けて

Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis

June 6, 2023
著者: Zhenhui Ye, Ziyue Jiang, Yi Ren, Jinglin Liu, Chen Zhang, Xiang Yin, Zejun Ma, Zhou Zhao
cs.AI

要旨

私たちは、低リソース環境におけるテキストから話すアバター生成という新たなタスクに着目しています。このタスクでは、数分間の音声付き話者ビデオを学習データとして与え、任意のテキストを入力として、そのテキストに対応する高品質な話者ポートレートビデオを生成することを目指します。このタスクはデジタルヒューマン産業において広範な応用が期待されていますが、以下の2つの課題により技術的に実現されていませんでした。(1) 従来のマルチスピーカー音声合成システムでは、ドメイン外の音声から音色を模倣することが困難である。(2) 限られた学習データで、高精細かつリップシンクロされた話すアバターをレンダリングすることが難しい。本論文では、Adaptive Text-to-Talking Avatar (Ada-TTA)を提案します。この手法は、(1) テキスト内容、音色、プロソディを適切に分離する汎用的なゼロショットマルチスピーカー音声合成モデルを設計し、(2) ニューラルレンダリングの最新技術を取り入れて、現実的な音声駆動型の話す顔ビデオ生成を実現します。これらの設計により、私たちの手法は前述の2つの課題を克服し、アイデンティティを保持した音声と現実的な話者ビデオの生成を達成します。実験結果は、私たちの手法が現実的でアイデンティティを保持し、音声と視覚が同期した話すアバタービデオを合成できることを示しています。
English
We are interested in a novel task, namely low-resource text-to-talking avatar. Given only a few-minute-long talking person video with the audio track as the training data and arbitrary texts as the driving input, we aim to synthesize high-quality talking portrait videos corresponding to the input text. This task has broad application prospects in the digital human industry but has not been technically achieved yet due to two challenges: (1) It is challenging to mimic the timbre from out-of-domain audio for a traditional multi-speaker Text-to-Speech system. (2) It is hard to render high-fidelity and lip-synchronized talking avatars with limited training data. In this paper, we introduce Adaptive Text-to-Talking Avatar (Ada-TTA), which (1) designs a generic zero-shot multi-speaker TTS model that well disentangles the text content, timbre, and prosody; and (2) embraces recent advances in neural rendering to achieve realistic audio-driven talking face video generation. With these designs, our method overcomes the aforementioned two challenges and achieves to generate identity-preserving speech and realistic talking person video. Experiments demonstrate that our method could synthesize realistic, identity-preserving, and audio-visual synchronized talking avatar videos.
PDF81December 15, 2024