BASE TTS: 100,000시간의 데이터로 10억 파라미터 텍스트-음성 변환 모델 구축에서 얻은 교훈
BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data
February 12, 2024
저자: Mateusz Łajszczak, Guillermo Cámbara, Yang Li, Fatih Beyhan, Arent van Korlaar, Fan Yang, Arnaud Joly, Álvaro Martín-Cortinas, Ammar Abbas, Adam Michalski, Alexis Moinet, Sri Karlapati, Ewa Muszyńska, Haohan Guo, Bartosz Putrycz, Soledad López Gambino, Kayeon Yoo, Elena Sokolova, Thomas Drugman
cs.AI
초록
본 논문에서는 Big Adaptive Streamable TTS with Emergent abilities의 약자인 BASE TTS라는 텍스트-음성 변환(TTS) 모델을 소개한다. BASE TTS는 현재까지 가장 큰 TTS 모델로, 공개 도메인 음성 데이터 10만 시간을 학습하여 음성 자연스러움 측면에서 새로운 최첨단 성능을 달성했다. 이 모델은 10억 개의 파라미터를 가진 자기회귀적 트랜스포머를 사용하여 원시 텍스트를 이산 코드("스피치코드")로 변환한 후, 컨볼루션 기반 디코더를 통해 이러한 스피치코드를 점진적이고 스트리밍 가능한 방식으로 파형으로 변환한다. 또한, 본 논문에서는 화자 ID 분리와 바이트 페어 인코딩을 통한 압축을 특징으로 하는 새로운 음성 토큰화 기술을 사용하여 스피치코드를 구축했다. 대규모 언어 모델이 데이터 양이 증가함에 따라 보여주는 "창발적 능력"과 유사하게, 1만 시간 이상의 데이터와 5억 개 이상의 파라미터로 구축된 BASE TTS 변형 모델들은 텍스트적으로 복잡한 문장에서 자연스러운 운율을 보이기 시작한다. 본 논문에서는 이러한 텍스트-음성 변환의 창발적 능력을 측정하기 위한 특화된 데이터셋을 설계하고 공유한다. BASE TTS의 최첨단 자연스러움은 YourTTS, Bark, TortoiseTTS와 같은 공개된 대규모 텍스트-음성 변환 시스템을 포함한 베이스라인과의 비교 평가를 통해 입증된다. 모델이 생성한 오디오 샘플은 https://amazon-ltts-paper.com/에서 확인할 수 있다.
English
We introduce a text-to-speech (TTS) model called BASE TTS, which stands for
Big Adaptive Streamable TTS with
Emergent abilities. BASE TTS is the largest TTS model to-date,
trained on 100K hours of public domain speech data, achieving a new
state-of-the-art in speech naturalness. It deploys a 1-billion-parameter
autoregressive Transformer that converts raw texts into discrete codes
("speechcodes") followed by a convolution-based decoder which converts these
speechcodes into waveforms in an incremental, streamable manner. Further, our
speechcodes are built using a novel speech tokenization technique that features
speaker ID disentanglement and compression with byte-pair encoding. Echoing the
widely-reported "emergent abilities" of large language models when trained on
increasing volume of data, we show that BASE TTS variants built with 10K+ hours
and 500M+ parameters begin to demonstrate natural prosody on textually complex
sentences. We design and share a specialized dataset to measure these emergent
abilities for text-to-speech. We showcase state-of-the-art naturalness of BASE
TTS by evaluating against baselines that include publicly available large-scale
text-to-speech systems: YourTTS, Bark and TortoiseTTS. Audio samples generated
by the model can be heard at https://amazon-ltts-paper.com/.Summary
AI-Generated Summary