벡터 양자화 없이 자동회귀 방식의 음성 합성
Autoregressive Speech Synthesis without Vector Quantization
July 11, 2024
저자: Lingwei Meng, Long Zhou, Shujie Liu, Sanyuan Chen, Bing Han, Shujie Hu, Yanqing Liu, Jinyu Li, Sheng Zhao, Xixin Wu, Helen Meng, Furu Wei
cs.AI
초록
본 논문에서는 텍스트 음성 합성(TTS)을 위한 새로운 연속값 토큰 기반 언어 모델링 접근법인 MELLE를 제안한다. MELLE는 벡터 양자화 과정을 거치지 않고 텍스트 조건에서 직접 연속적인 멜-스펙트로그램 프레임을 자동회귀적으로 생성한다. 벡터 양자화는 원래 오디오 압축을 위해 설계된 기술로, 멜-스펙트로그램에 비해 충실도가 떨어진다는 단점이 있다. 구체적으로, (i) 교차 엔트로피 손실 대신 제안된 스펙트로그램 플럭스 손실 함수를 적용하여 연속값 토큰의 확률 분포를 모델링한다. (ii) MELLE에 변분 추론을 도입하여 샘플링 메커니즘을 개선함으로써 출력 다양성과 모델 강건성을 향상시켰다. 실험 결과, 두 단계 코덱 언어 모델인 VALL-E 및 그 변형 모델들과 비교했을 때, 단일 단계 MELLE는 이산 코드 샘플링의 고질적인 문제를 피함으로써 강건성 문제를 완화하고, 여러 평가 지표에서 우수한 성능을 달성하며, 무엇보다도 더 간결한 패러다임을 제공한다. 우리의 작업 데모는 https://aka.ms/melle에서 확인할 수 있다.
English
We present MELLE, a novel continuous-valued tokens based language modeling
approach for text to speech synthesis (TTS). MELLE autoregressively generates
continuous mel-spectrogram frames directly from text condition, bypassing the
need for vector quantization, which are originally designed for audio
compression and sacrifice fidelity compared to mel-spectrograms. Specifically,
(i) instead of cross-entropy loss, we apply regression loss with a proposed
spectrogram flux loss function to model the probability distribution of the
continuous-valued tokens. (ii) we have incorporated variational inference into
MELLE to facilitate sampling mechanisms, thereby enhancing the output diversity
and model robustness. Experiments demonstrate that, compared to the two-stage
codec language models VALL-E and its variants, the single-stage MELLE mitigates
robustness issues by avoiding the inherent flaws of sampling discrete codes,
achieves superior performance across multiple metrics, and, most importantly,
offers a more streamlined paradigm. See https://aka.ms/melle for demos of our
work.Summary
AI-Generated Summary