PolyVoice: Modelos de Linguagem para Tradução de Fala para Fala

Resumo

Propomos o PolyVoice, um framework baseado em modelo de linguagem para sistemas de tradução de fala para fala (S2ST). Nosso framework consiste em dois modelos de linguagem: um modelo de linguagem de tradução e um modelo de linguagem de síntese de fala. Utilizamos unidades de fala discretizadas, que são geradas de forma totalmente não supervisionada, permitindo que nosso framework seja aplicado a idiomas não escritos. Para a parte de síntese de fala, adotamos a abordagem existente do VALL-E X e construímos um modelo de linguagem de áudio baseado em unidades. Isso confere ao nosso framework a capacidade de preservar as características vocais e o estilo de fala do discurso original. Avaliamos nosso sistema em pares de Chinês → Inglês e Inglês → Espanhol. Os resultados experimentais mostram que nosso sistema é capaz de gerar fala com alta qualidade de tradução e qualidade de áudio. Amostras de fala estão disponíveis em https://speechtranslation.github.io/polyvoice.

English

We propose PolyVoice, a language model-based framework for speech-to-speech translation (S2ST) system. Our framework consists of two language models: a translation language model and a speech synthesis language model. We use discretized speech units, which are generated in a fully unsupervised way, and thus our framework can be used for unwritten languages. For the speech synthesis part, we adopt the existing VALL-E X approach and build a unit-based audio language model. This grants our framework the ability to preserve the voice characteristics and the speaking style of the original speech. We examine our system on Chinese rightarrow English and English rightarrow Spanish pairs. Experimental results show that our system can generate speech with high translation quality and audio quality. Speech samples are available at https://speechtranslation.github.io/polyvoice.

PolyVoice: Modelos de Linguagem para Tradução de Fala para Fala

PolyVoice: Language Models for Speech to Speech Translation

Resumo

Support