PolyVoice: Modelos de Lenguaje para Traducción de Voz a Voz
PolyVoice: Language Models for Speech to Speech Translation
June 5, 2023
Autores: Qianqian Dong, Zhiying Huang, Chen Xu, Yunlong Zhao, Kexin Wang, Xuxin Cheng, Tom Ko, Qiao Tian, Tang Li, Fengpeng Yue, Ye Bai, Xi Chen, Lu Lu, Zejun Ma, Yuping Wang, Mingxuan Wang, Yuxuan Wang
cs.AI
Resumen
Proponemos PolyVoice, un marco basado en modelos de lenguaje para sistemas de traducción de voz a voz (S2ST). Nuestro marco consta de dos modelos de lenguaje: un modelo de lenguaje de traducción y un modelo de lenguaje de síntesis de voz. Utilizamos unidades de voz discretizadas, generadas de manera completamente no supervisada, lo que permite que nuestro marco sea aplicable a lenguas no escritas. Para la parte de síntesis de voz, adoptamos el enfoque existente de VALL-E X y construimos un modelo de lenguaje de audio basado en unidades. Esto otorga a nuestro marco la capacidad de preservar las características de la voz y el estilo de habla del discurso original. Evaluamos nuestro sistema en pares de chino → inglés e inglés → español. Los resultados experimentales muestran que nuestro sistema puede generar voz con alta calidad de traducción y calidad de audio. Las muestras de voz están disponibles en https://speechtranslation.github.io/polyvoice.
English
We propose PolyVoice, a language model-based framework for speech-to-speech
translation (S2ST) system. Our framework consists of two language models: a
translation language model and a speech synthesis language model. We use
discretized speech units, which are generated in a fully unsupervised way, and
thus our framework can be used for unwritten languages. For the speech
synthesis part, we adopt the existing VALL-E X approach and build a unit-based
audio language model. This grants our framework the ability to preserve the
voice characteristics and the speaking style of the original speech. We examine
our system on Chinese rightarrow English and English rightarrow Spanish
pairs. Experimental results show that our system can generate speech with high
translation quality and audio quality. Speech samples are available at
https://speechtranslation.github.io/polyvoice.