PolyVoice: Modelos de Lenguaje para Traducción de Voz a Voz

Resumen

Proponemos PolyVoice, un marco basado en modelos de lenguaje para sistemas de traducción de voz a voz (S2ST). Nuestro marco consta de dos modelos de lenguaje: un modelo de lenguaje de traducción y un modelo de lenguaje de síntesis de voz. Utilizamos unidades de voz discretizadas, generadas de manera completamente no supervisada, lo que permite que nuestro marco sea aplicable a lenguas no escritas. Para la parte de síntesis de voz, adoptamos el enfoque existente de VALL-E X y construimos un modelo de lenguaje de audio basado en unidades. Esto otorga a nuestro marco la capacidad de preservar las características de la voz y el estilo de habla del discurso original. Evaluamos nuestro sistema en pares de chino → inglés e inglés → español. Los resultados experimentales muestran que nuestro sistema puede generar voz con alta calidad de traducción y calidad de audio. Las muestras de voz están disponibles en https://speechtranslation.github.io/polyvoice.

English

We propose PolyVoice, a language model-based framework for speech-to-speech translation (S2ST) system. Our framework consists of two language models: a translation language model and a speech synthesis language model. We use discretized speech units, which are generated in a fully unsupervised way, and thus our framework can be used for unwritten languages. For the speech synthesis part, we adopt the existing VALL-E X approach and build a unit-based audio language model. This grants our framework the ability to preserve the voice characteristics and the speaking style of the original speech. We examine our system on Chinese rightarrow English and English rightarrow Spanish pairs. Experimental results show that our system can generate speech with high translation quality and audio quality. Speech samples are available at https://speechtranslation.github.io/polyvoice.

PolyVoice: Modelos de Lenguaje para Traducción de Voz a Voz

PolyVoice: Language Models for Speech to Speech Translation

Resumen

Support