ChatPaper.aiChatPaper

PolyVoice : Modèles de langage pour la traduction de parole en parole

PolyVoice: Language Models for Speech to Speech Translation

June 5, 2023
Auteurs: Qianqian Dong, Zhiying Huang, Chen Xu, Yunlong Zhao, Kexin Wang, Xuxin Cheng, Tom Ko, Qiao Tian, Tang Li, Fengpeng Yue, Ye Bai, Xi Chen, Lu Lu, Zejun Ma, Yuping Wang, Mingxuan Wang, Yuxuan Wang
cs.AI

Résumé

Nous proposons PolyVoice, un framework basé sur un modèle de langage pour un système de traduction parole-à-parole (S2ST). Notre framework est composé de deux modèles de langage : un modèle de traduction et un modèle de synthèse vocale. Nous utilisons des unités de parole discrétisées, générées de manière entièrement non supervisée, ce qui permet à notre framework d'être utilisé pour des langues non écrites. Pour la partie synthèse vocale, nous adoptons l'approche existante VALL-E X et construisons un modèle de langage audio basé sur des unités. Cela confère à notre framework la capacité de préserver les caractéristiques vocales et le style d'élocution du discours original. Nous testons notre système sur les paires chinois ⇒ anglais et anglais ⇒ espagnol. Les résultats expérimentaux montrent que notre système peut générer une parole de haute qualité tant en termes de traduction que de qualité audio. Des échantillons vocaux sont disponibles à l'adresse https://speechtranslation.github.io/polyvoice.
English
We propose PolyVoice, a language model-based framework for speech-to-speech translation (S2ST) system. Our framework consists of two language models: a translation language model and a speech synthesis language model. We use discretized speech units, which are generated in a fully unsupervised way, and thus our framework can be used for unwritten languages. For the speech synthesis part, we adopt the existing VALL-E X approach and build a unit-based audio language model. This grants our framework the ability to preserve the voice characteristics and the speaking style of the original speech. We examine our system on Chinese rightarrow English and English rightarrow Spanish pairs. Experimental results show that our system can generate speech with high translation quality and audio quality. Speech samples are available at https://speechtranslation.github.io/polyvoice.
PDF40December 15, 2024