Impulsionando Modelos de Linguagem de Grande Escala para Síntese de Fala: Um Estudo Empírico
Boosting Large Language Model for Speech Synthesis: An Empirical Study
December 30, 2023
Autores: Hongkun Hao, Long Zhou, Shujie Liu, Jinyu Li, Shujie Hu, Rui Wang, Furu Wei
cs.AI
Resumo
Os grandes modelos de linguagem (LLMs, na sigla em inglês) têm alcançado avanços significativos no processamento de linguagem natural e estão, simultaneamente, estendendo a capacidade linguística para outras modalidades, como fala e visão. No entanto, a maior parte do trabalho anterior concentra-se em instruir LLMs com habilidades perceptivas, como compreensão auditiva, e a abordagem eficaz para aprimorar LLMs com capacidades de síntese de fala permanece ambígua. Neste artigo, realizamos uma exploração empírica abrangente de como impulsionar LLMs com a capacidade de gerar fala, combinando o LLM pré-treinado LLaMA/OPT e o modelo de síntese de texto para fala VALL-E. Comparamos três métodos de integração entre LLMs e modelos de síntese de fala, incluindo LLMs ajustados diretamente, camadas sobrepostas de LLMs e VALL-E, e LLMs e VALL-E acoplados, utilizando LLMs como um poderoso codificador de texto. Os resultados experimentais mostram que o uso do método LoRA para ajustar diretamente LLMs a fim de melhorar a capacidade de síntese de fala não funciona bem, e LLMs e VALL-E sobrepostos podem melhorar a qualidade da fala gerada tanto na similaridade do falante quanto na taxa de erro de palavras (WER, na sigla em inglês). Entre esses três métodos, os métodos acoplados que utilizam LLMs como codificador de texto podem alcançar o melhor desempenho, superando os modelos originais de síntese de fala com uma similaridade do falante consistentemente melhor e uma redução significativa (10,9%) na WER.
English
Large language models (LLMs) have made significant advancements in natural
language processing and are concurrently extending the language ability to
other modalities, such as speech and vision. Nevertheless, most of the previous
work focuses on prompting LLMs with perception abilities like auditory
comprehension, and the effective approach for augmenting LLMs with speech
synthesis capabilities remains ambiguous. In this paper, we conduct a
comprehensive empirical exploration of boosting LLMs with the ability to
generate speech, by combining pre-trained LLM LLaMA/OPT and text-to-speech
synthesis model VALL-E. We compare three integration methods between LLMs and
speech synthesis models, including directly fine-tuned LLMs, superposed layers
of LLMs and VALL-E, and coupled LLMs and VALL-E using LLMs as a powerful text
encoder. Experimental results show that, using LoRA method to fine-tune LLMs
directly to boost the speech synthesis capability does not work well, and
superposed LLMs and VALL-E can improve the quality of generated speech both in
speaker similarity and word error rate (WER). Among these three methods,
coupled methods leveraging LLMs as the text encoder can achieve the best
performance, making it outperform original speech synthesis models with a
consistently better speaker similarity and a significant (10.9%) WER reduction.