대규모 언어 모델을 음성 합성에 활용하기: 실증적 연구
Boosting Large Language Model for Speech Synthesis: An Empirical Study
December 30, 2023
저자: Hongkun Hao, Long Zhou, Shujie Liu, Jinyu Li, Shujie Hu, Rui Wang, Furu Wei
cs.AI
초록
대규모 언어 모델(LLM)은 자연어 처리 분야에서 상당한 발전을 이루었으며, 동시에 음성 및 시각과 같은 다른 모달리티로 언어 능력을 확장하고 있습니다. 그러나 기존 연구의 대부분은 청각 이해와 같은 지각 능력으로 LLM을 프롬프팅하는 데 초점을 맞추고 있으며, 음성 합성 능력을 LLM에 효과적으로 통합하는 방법은 여전히 불분명합니다. 본 논문에서는 사전 훈련된 LLM인 LLaMA/OPT와 텍스트-음성 합성 모델인 VALL-E를 결합하여 LLM에 음성 생성 능력을 부여하는 방법에 대한 포괄적인 실험적 탐구를 수행합니다. 우리는 LLM과 음성 합성 모델 간의 세 가지 통합 방법을 비교합니다. 이 방법들은 직접 미세 조정된 LLM, LLM과 VALL-E의 중첩된 레이어, 그리고 강력한 텍스트 인코더로 LLM을 사용하여 결합된 LLM과 VALL-E를 포함합니다. 실험 결과에 따르면, LoRA 방법을 사용하여 LLM을 직접 미세 조정하여 음성 합성 능력을 향상시키는 것은 잘 작동하지 않으며, 중첩된 LLM과 VALL-E는 생성된 음성의 품질을 화자 유사성과 단어 오류율(WER) 모두에서 개선할 수 있습니다. 이 세 가지 방법 중에서, LLM을 텍스트 인코더로 활용한 결합 방법이 가장 우수한 성능을 달성할 수 있으며, 이를 통해 원래의 음성 합성 모델을 능가하는 일관되게 더 나은 화자 유사성과 상당한(10.9%) WER 감소를 이룰 수 있습니다.
English
Large language models (LLMs) have made significant advancements in natural
language processing and are concurrently extending the language ability to
other modalities, such as speech and vision. Nevertheless, most of the previous
work focuses on prompting LLMs with perception abilities like auditory
comprehension, and the effective approach for augmenting LLMs with speech
synthesis capabilities remains ambiguous. In this paper, we conduct a
comprehensive empirical exploration of boosting LLMs with the ability to
generate speech, by combining pre-trained LLM LLaMA/OPT and text-to-speech
synthesis model VALL-E. We compare three integration methods between LLMs and
speech synthesis models, including directly fine-tuned LLMs, superposed layers
of LLMs and VALL-E, and coupled LLMs and VALL-E using LLMs as a powerful text
encoder. Experimental results show that, using LoRA method to fine-tune LLMs
directly to boost the speech synthesis capability does not work well, and
superposed LLMs and VALL-E can improve the quality of generated speech both in
speaker similarity and word error rate (WER). Among these three methods,
coupled methods leveraging LLMs as the text encoder can achieve the best
performance, making it outperform original speech synthesis models with a
consistently better speaker similarity and a significant (10.9%) WER reduction.