PolyVoice: Modelos de Linguagem para Tradução de Fala para Fala
PolyVoice: Language Models for Speech to Speech Translation
June 5, 2023
Autores: Qianqian Dong, Zhiying Huang, Chen Xu, Yunlong Zhao, Kexin Wang, Xuxin Cheng, Tom Ko, Qiao Tian, Tang Li, Fengpeng Yue, Ye Bai, Xi Chen, Lu Lu, Zejun Ma, Yuping Wang, Mingxuan Wang, Yuxuan Wang
cs.AI
Resumo
Propomos o PolyVoice, um framework baseado em modelo de linguagem para sistemas de tradução de fala para fala (S2ST). Nosso framework consiste em dois modelos de linguagem: um modelo de linguagem de tradução e um modelo de linguagem de síntese de fala. Utilizamos unidades de fala discretizadas, que são geradas de forma totalmente não supervisionada, permitindo que nosso framework seja aplicado a idiomas não escritos. Para a parte de síntese de fala, adotamos a abordagem existente do VALL-E X e construímos um modelo de linguagem de áudio baseado em unidades. Isso confere ao nosso framework a capacidade de preservar as características vocais e o estilo de fala do discurso original. Avaliamos nosso sistema em pares de Chinês → Inglês e Inglês → Espanhol. Os resultados experimentais mostram que nosso sistema é capaz de gerar fala com alta qualidade de tradução e qualidade de áudio. Amostras de fala estão disponíveis em https://speechtranslation.github.io/polyvoice.
English
We propose PolyVoice, a language model-based framework for speech-to-speech
translation (S2ST) system. Our framework consists of two language models: a
translation language model and a speech synthesis language model. We use
discretized speech units, which are generated in a fully unsupervised way, and
thus our framework can be used for unwritten languages. For the speech
synthesis part, we adopt the existing VALL-E X approach and build a unit-based
audio language model. This grants our framework the ability to preserve the
voice characteristics and the speaking style of the original speech. We examine
our system on Chinese rightarrow English and English rightarrow Spanish
pairs. Experimental results show that our system can generate speech with high
translation quality and audio quality. Speech samples are available at
https://speechtranslation.github.io/polyvoice.