NaturalSpeech 3: 인수분해된 코덱과 확산 모델을 활용한 제로샷 음성 합성NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and
Diffusion Models
최근 대규모 텍스트-음성 변환(TTS) 모델들이 상당한 진전을 이루었음에도 불구하고, 여전히 음질, 유사성, 운율 측면에서 한계를 보이고 있습니다. 음성이 내용, 운율, 음색, 음향적 세부 사항 등 다양한 속성을 복잡하게 포함하고 있어 생성에 있어 상당한 어려움을 겪고 있음을 고려할 때, 음성을 개별 속성을 나타내는 부분 공간으로 분해하여 각각을 개별적으로 생성하는 것이 자연스러운 접근법입니다. 이러한 동기에서 출발하여, 우리는 제로샷 방식으로 자연스러운 음성을 생성하기 위해 새로운 분해 확산 모델을 갖춘 TTS 시스템인 NaturalSpeech 3를 제안합니다. 구체적으로, 1) 내용, 운율, 음색, 음향적 세부 사항을 부분 공간으로 분리하기 위해 분해 벡터 양자화(FVQ)를 적용한 신경 코덱을 설계하고, 2) 각 부분 공간의 속성을 해당 프롬프트에 따라 생성하기 위해 분해 확산 모델을 제안합니다. 이러한 분해 설계를 통해 NaturalSpeech 3는 복잡한 음성을 분리된 부분 공간으로 효과적이고 효율적으로 모델링하며, 분할 정복 방식으로 접근할 수 있습니다. 실험 결과, NaturalSpeech 3는 음질, 유사성, 운율, 명료성 측면에서 최신 TTS 시스템들을 능가하는 성능을 보여줍니다. 더 나아가, 10억 개의 파라미터와 20만 시간의 학습 데이터로 확장하여 더 나은 성능을 달성했습니다.