NaturalSpeech 3: 인수분해된 코덱과 확산 모델을 활용한 제로샷 음성 합성
NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models
March 5, 2024
저자: Zeqian Ju, Yuancheng Wang, Kai Shen, Xu Tan, Detai Xin, Dongchao Yang, Yanqing Liu, Yichong Leng, Kaitao Song, Siliang Tang, Zhizheng Wu, Tao Qin, Xiang-Yang Li, Wei Ye, Shikun Zhang, Jiang Bian, Lei He, Jinyu Li, Sheng Zhao
cs.AI
초록
최근 대규모 텍스트-음성 변환(TTS) 모델들이 상당한 진전을 이루었음에도 불구하고, 여전히 음질, 유사성, 운율 측면에서 한계를 보이고 있습니다. 음성이 내용, 운율, 음색, 음향적 세부 사항 등 다양한 속성을 복잡하게 포함하고 있어 생성에 있어 상당한 어려움을 겪고 있음을 고려할 때, 음성을 개별 속성을 나타내는 부분 공간으로 분해하여 각각을 개별적으로 생성하는 것이 자연스러운 접근법입니다. 이러한 동기에서 출발하여, 우리는 제로샷 방식으로 자연스러운 음성을 생성하기 위해 새로운 분해 확산 모델을 갖춘 TTS 시스템인 NaturalSpeech 3를 제안합니다. 구체적으로, 1) 내용, 운율, 음색, 음향적 세부 사항을 부분 공간으로 분리하기 위해 분해 벡터 양자화(FVQ)를 적용한 신경 코덱을 설계하고, 2) 각 부분 공간의 속성을 해당 프롬프트에 따라 생성하기 위해 분해 확산 모델을 제안합니다. 이러한 분해 설계를 통해 NaturalSpeech 3는 복잡한 음성을 분리된 부분 공간으로 효과적이고 효율적으로 모델링하며, 분할 정복 방식으로 접근할 수 있습니다. 실험 결과, NaturalSpeech 3는 음질, 유사성, 운율, 명료성 측면에서 최신 TTS 시스템들을 능가하는 성능을 보여줍니다. 더 나아가, 10억 개의 파라미터와 20만 시간의 학습 데이터로 확장하여 더 나은 성능을 달성했습니다.
English
While recent large-scale text-to-speech (TTS) models have achieved
significant progress, they still fall short in speech quality, similarity, and
prosody. Considering speech intricately encompasses various attributes (e.g.,
content, prosody, timbre, and acoustic details) that pose significant
challenges for generation, a natural idea is to factorize speech into
individual subspaces representing different attributes and generate them
individually. Motivated by it, we propose NaturalSpeech 3, a TTS system with
novel factorized diffusion models to generate natural speech in a zero-shot
way. Specifically, 1) we design a neural codec with factorized vector
quantization (FVQ) to disentangle speech waveform into subspaces of content,
prosody, timbre, and acoustic details; 2) we propose a factorized diffusion
model to generate attributes in each subspace following its corresponding
prompt. With this factorization design, NaturalSpeech 3 can effectively and
efficiently model the intricate speech with disentangled subspaces in a
divide-and-conquer way. Experiments show that NaturalSpeech 3 outperforms the
state-of-the-art TTS systems on quality, similarity, prosody, and
intelligibility. Furthermore, we achieve better performance by scaling to 1B
parameters and 200K hours of training data.Summary
AI-Generated Summary