ChatPaper.aiChatPaper

大規模言語モデルを音声合成にブーストする:実証的研究

Boosting Large Language Model for Speech Synthesis: An Empirical Study

December 30, 2023
著者: Hongkun Hao, Long Zhou, Shujie Liu, Jinyu Li, Shujie Hu, Rui Wang, Furu Wei
cs.AI

要旨

大規模言語モデル(LLM)は自然言語処理において大きな進歩を遂げており、同時に言語能力を音声や視覚などの他のモダリティに拡張しつつあります。しかし、これまでの研究の多くは、聴覚理解のような知覚能力をLLMにプロンプトすることに焦点を当てており、音声合成能力をLLMに組み込む効果的なアプローチは依然として不明確です。本論文では、事前学習済みのLLM(LLaMA/OPT)とテキスト音声合成モデル(VALL-E)を組み合わせることで、LLMに音声生成能力を付与するための包括的な実証的探求を行います。LLMと音声合成モデルの統合方法として、直接ファインチューニングしたLLM、LLMとVALL-Eを重ね合わせた層、およびLLMを強力なテキストエンコーダとして利用した結合型の3つの方法を比較します。実験結果から、LoRA法を用いてLLMを直接ファインチューニングして音声合成能力を向上させる方法はうまく機能せず、LLMとVALL-Eを重ね合わせることで、生成される音声の品質が話者類似度と単語誤り率(WER)の両方で向上することが示されました。これら3つの方法の中では、LLMをテキストエンコーダとして活用する結合型の方法が最も優れた性能を発揮し、元の音声合成モデルを上回る一貫した話者類似度と10.9%のWER削減を達成しました。
English
Large language models (LLMs) have made significant advancements in natural language processing and are concurrently extending the language ability to other modalities, such as speech and vision. Nevertheless, most of the previous work focuses on prompting LLMs with perception abilities like auditory comprehension, and the effective approach for augmenting LLMs with speech synthesis capabilities remains ambiguous. In this paper, we conduct a comprehensive empirical exploration of boosting LLMs with the ability to generate speech, by combining pre-trained LLM LLaMA/OPT and text-to-speech synthesis model VALL-E. We compare three integration methods between LLMs and speech synthesis models, including directly fine-tuned LLMs, superposed layers of LLMs and VALL-E, and coupled LLMs and VALL-E using LLMs as a powerful text encoder. Experimental results show that, using LoRA method to fine-tune LLMs directly to boost the speech synthesis capability does not work well, and superposed LLMs and VALL-E can improve the quality of generated speech both in speaker similarity and word error rate (WER). Among these three methods, coupled methods leveraging LLMs as the text encoder can achieve the best performance, making it outperform original speech synthesis models with a consistently better speaker similarity and a significant (10.9%) WER reduction.
PDF141December 15, 2024