Pheme: Geração de Fala Eficiente e Conversacional
Pheme: Efficient and Conversational Speech Generation
January 5, 2024
Autores: Paweł Budzianowski, Taras Sereda, Tomasz Cichy, Ivan Vulić
cs.AI
Resumo
Nos últimos anos, a geração de fala tem apresentado avanços notáveis, alcançando agora a capacidade de geração one-shot que muitas vezes é virtualmente indistinguível da voz humana real. A integração desses avanços na geração de fala com modelos de linguagem de grande escala pode revolucionar uma ampla gama de aplicações. No entanto, certas aplicações, como sistemas conversacionais assistivos, exigem ferramentas de geração de fala natural e conversacional que também operem com eficiência em tempo real. Os modelos state-of-the-art atuais, como VALL-E e SoundStorm, alimentados por codecs de áudio neurais hierárquicos, exigem grandes componentes neurais e extensos dados de treinamento para funcionar bem. Em contraste, o MQTTS visa construir modelos TTS conversacionais mais compactos, aproveitando dados de fala conversacional em menor escala da vida real. No entanto, sua natureza autoregressiva resulta em alta latência de inferência, limitando assim seu uso em tempo real. Para mitigar as limitações atuais dos modelos TTS state-of-the-art, ao mesmo tempo em que aproveitamos seus pontos fortes, neste trabalho introduzimos a série de modelos Pheme que 1) oferece modelos compactos, mas de alto desempenho, 2) permite a geração paralela de fala 3) natural e conversacional, e 4) pode ser treinada de forma eficiente com dados conversacionais em menor escala, reduzindo a demanda de dados em mais de 10 vezes, mas ainda assim correspondendo à qualidade dos modelos TTS autoregressivos. Também mostramos que, por meio de uma simples destilação professor-aluno, podemos alcançar melhorias significativas na qualidade da voz para configurações de um único falante, com base em checkpoints pré-treinados do Pheme, utilizando apenas fala sintética gerada por modelos professores muito maiores. Amostras de áudio e modelos pré-treinados estão disponíveis online.
English
In recent years, speech generation has seen remarkable progress, now
achieving one-shot generation capability that is often virtually
indistinguishable from real human voice. Integrating such advancements in
speech generation with large language models might revolutionize a wide range
of applications. However, certain applications, such as assistive
conversational systems, require natural and conversational speech generation
tools that also operate efficiently in real time. Current state-of-the-art
models like VALL-E and SoundStorm, powered by hierarchical neural audio codecs,
require large neural components and extensive training data to work well. In
contrast, MQTTS aims to build more compact conversational TTS models while
capitalizing on smaller-scale real-life conversational speech data. However,
its autoregressive nature yields high inference latency and thus limits its
real-time usage. In order to mitigate the current limitations of the
state-of-the-art TTS models while capitalizing on their strengths, in this work
we introduce the Pheme model series that 1) offers compact yet high-performing
models, 2) allows for parallel speech generation of 3) natural conversational
speech, and 4) it can be trained efficiently on smaller-scale conversational
data, cutting data demands by more than 10x but still matching the quality of
the autoregressive TTS models. We also show that through simple teacher-student
distillation we can meet significant improvements in voice quality for
single-speaker setups on top of pretrained Pheme checkpoints, relying solely on
synthetic speech generated by much larger teacher models. Audio samples and
pretrained models are available online.