PromptTTS 2: 텍스트 프롬프트를 통한 음성 설명 및 생성
PromptTTS 2: Describing and Generating Voices with Text Prompt
September 5, 2023
저자: Yichong Leng, Zhifang Guo, Kai Shen, Xu Tan, Zeqian Ju, Yanqing Liu, Yufei Liu, Dongchao Yang, Leying Zhang, Kaitao Song, Lei He, Xiang-Yang Li, Sheng Zhao, Tao Qin, Jiang Bian
cs.AI
초록
음성은 단순한 텍스트 이상의 정보를 전달하며, 동일한 단어라도 다양한 목소리로 발화함으로써 다양한 정보를 전달할 수 있습니다. 음성 변동성을 위해 음성 프롬프트(참조 음성)에 의존하는 기존의 텍스트-음성 변환(TTS) 방법과 비교할 때, 음성 프롬프트를 찾기 어렵거나 아예 존재하지 않을 수 있기 때문에 텍스트 프롬프트(설명)를 사용하는 것이 더 사용자 친화적입니다. 텍스트 프롬프트 기반의 TTS 접근 방식은 두 가지 과제에 직면합니다: 1) 텍스트 프롬프트에서 음성 변동성에 대한 모든 세부 사항을 설명할 수 없는 일대다 문제, 그리고 2) 텍스트 프롬프트 데이터셋의 제한된 가용성, 이는 텍스트 프롬프트 작성을 위해 공급업체와 높은 데이터 라벨링 비용이 필요합니다. 본 연구에서는 이러한 과제를 해결하기 위해 PromptTTS 2를 소개합니다. 이는 텍스트 프롬프트에서 포착되지 않은 음성 변동성 정보를 제공하는 변동성 네트워크와, 대규모 언어 모델(LLM)을 활용하여 고품질 텍스트 프롬프트를 구성하는 프롬프트 생성 파이프라인을 포함합니다. 구체적으로, 변동성 네트워크는 텍스트 프롬프트 표현을 기반으로 참조 음성(음성에 대한 완전한 정보를 포함)에서 추출된 표현을 예측합니다. 프롬프트 생성 파이프라인의 경우, 음성 이해 모델을 사용하여 음성에서 음성 속성(예: 성별, 속도)을 인식하고, 인식 결과를 기반으로 텍스트 프롬프트를 작성하기 위해 대규모 언어 모델을 사용합니다. 대규모(44K 시간) 음성 데이터셋에 대한 실험 결과, PromptTTS 2는 이전 연구와 비교하여 텍스트 프롬프트와 더 일관된 음성을 생성하고 다양한 음성 변동성을 샘플링할 수 있어 사용자에게 더 많은 음성 생성 선택지를 제공합니다. 또한, 프롬프트 생성 파이프라인은 높은 품질의 프롬프트를 생성하여 높은 라벨링 비용을 제거합니다. PromptTTS 2의 데모 페이지는 온라인에서 확인할 수 있습니다: https://speechresearch.github.io/prompttts2.
English
Speech conveys more information than just text, as the same word can be
uttered in various voices to convey diverse information. Compared to
traditional text-to-speech (TTS) methods relying on speech prompts (reference
speech) for voice variability, using text prompts (descriptions) is more
user-friendly since speech prompts can be hard to find or may not exist at all.
TTS approaches based on the text prompt face two challenges: 1) the one-to-many
problem, where not all details about voice variability can be described in the
text prompt, and 2) the limited availability of text prompt datasets, where
vendors and large cost of data labeling are required to write text prompt for
speech. In this work, we introduce PromptTTS 2 to address these challenges with
a variation network to provide variability information of voice not captured by
text prompts, and a prompt generation pipeline to utilize the large language
models (LLM) to compose high quality text prompts. Specifically, the variation
network predicts the representation extracted from the reference speech (which
contains full information about voice) based on the text prompt representation.
For the prompt generation pipeline, it generates text prompts for speech with a
speech understanding model to recognize voice attributes (e.g., gender, speed)
from speech and a large language model to formulate text prompt based on the
recognition results. Experiments on a large-scale (44K hours) speech dataset
demonstrate that compared to the previous works, PromptTTS 2 generates voices
more consistent with text prompts and supports the sampling of diverse voice
variability, thereby offering users more choices on voice generation.
Additionally, the prompt generation pipeline produces high-quality prompts,
eliminating the large labeling cost. The demo page of PromptTTS 2 is available
onlinehttps://speechresearch.github.io/prompttts2.