MegaTTS 3: 제로샷 음성 합성을 위한 희소 정렬 강화 잠재 디퓨전 트랜스포머
MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis
February 26, 2025
저자: Ziyue Jiang, Yi Ren, Ruiqi Li, Shengpeng Ji, Boyang Zhang, Zhenhui Ye, Chen Zhang, Bai Jionghao, Xiaoda Yang, Jialong Zuo, Yu Zhang, Rui Liu, Xiang Yin, Zhou Zhao
cs.AI
초록
최근 제로샷 텍스트-음성 변환(TTS) 모델들은 음성 품질과 표현력에서 상당한 개선을 이루었지만, 주류 시스템들은 여전히 음성-텍스트 정렬 모델링과 관련된 문제를 겪고 있습니다: 1) 명시적인 음성-텍스트 정렬 모델링이 없는 모델들은 특히 실제 응용에서 어려운 문장에 대해 덜 견고성을 보입니다; 2) 미리 정의된 정렬 기반 모델들은 강제 정렬의 자연스러움 제약을 겪습니다. 본 논문은 혁신적인 희소 정렬 알고리즘을 특징으로 하는 MegaTTS 3 TTS 시스템을 소개합니다. 이 알고리즘은 잠재 확산 트랜스포머(DiT)를 안내합니다. 구체적으로, MegaTTS 3에 희소 정렬 경계를 제공하여 검색 공간을 제한하지 않고도 정렬의 어려움을 줄여 높은 자연스러움을 달성합니다. 또한, 악센트 강도 조정을 위해 다중 조건 분류자 없는 가이던스 전략을 채택하고, 생성 과정을 가속화하기 위해 조각별 직교 흐름 기법을 사용합니다. 실험 결과, MegaTTS 3은 최첨단 제로샷 TTS 음성 품질을 달성하며 악센트 강도에 대한 높은 유연성을 지원합니다. 특히, 우리의 시스템은 단 8개의 샘플링 단계로도 고품질의 1분 길이 음성을 생성할 수 있습니다. 오디오 샘플은 https://sditdemo.github.io/sditdemo/에서 확인할 수 있습니다.
English
While recent zero-shot text-to-speech (TTS) models have significantly
improved speech quality and expressiveness, mainstream systems still suffer
from issues related to speech-text alignment modeling: 1) models without
explicit speech-text alignment modeling exhibit less robustness, especially for
hard sentences in practical applications; 2) predefined alignment-based models
suffer from naturalness constraints of forced alignments. This paper introduces
MegaTTS 3, a TTS system featuring an innovative sparse alignment
algorithm that guides the latent diffusion transformer (DiT). Specifically, we
provide sparse alignment boundaries to MegaTTS 3 to reduce the difficulty of
alignment without limiting the search space, thereby achieving high
naturalness. Moreover, we employ a multi-condition classifier-free guidance
strategy for accent intensity adjustment and adopt the piecewise rectified flow
technique to accelerate the generation process. Experiments demonstrate that
MegaTTS 3 achieves state-of-the-art zero-shot TTS speech quality and supports
highly flexible control over accent intensity. Notably, our system can generate
high-quality one-minute speech with only 8 sampling steps. Audio samples are
available at https://sditdemo.github.io/sditdemo/.Summary
AI-Generated Summary