ChatPaper.aiChatPaper

PolyVoice: Modelli Linguistici per la Traduzione da Voce a Voce

PolyVoice: Language Models for Speech to Speech Translation

June 5, 2023
Autori: Qianqian Dong, Zhiying Huang, Chen Xu, Yunlong Zhao, Kexin Wang, Xuxin Cheng, Tom Ko, Qiao Tian, Tang Li, Fengpeng Yue, Ye Bai, Xi Chen, Lu Lu, Zejun Ma, Yuping Wang, Mingxuan Wang, Yuxuan Wang
cs.AI

Abstract

Proponiamo PolyVoice, un framework basato su modelli linguistici per un sistema di traduzione da voce a voce (S2ST). Il nostro framework è composto da due modelli linguistici: un modello linguistico di traduzione e un modello linguistico di sintesi vocale. Utilizziamo unità vocali discretizzate, generate in modo completamente non supervisionato, consentendo così al nostro framework di essere applicato a lingue non scritte. Per la parte di sintesi vocale, adottiamo l'approccio esistente di VALL-E X e costruiamo un modello linguistico audio basato su unità. Ciò conferisce al nostro framework la capacità di preservare le caratteristiche vocali e lo stile di parlato del discorso originale. Testiamo il nostro sistema sulle coppie cinese ⇒ inglese e inglese ⇒ spagnolo. I risultati sperimentali dimostrano che il nostro sistema è in grado di generare discorsi con elevata qualità di traduzione e qualità audio. Campioni vocali sono disponibili all'indirizzo https://speechtranslation.github.io/polyvoice.
English
We propose PolyVoice, a language model-based framework for speech-to-speech translation (S2ST) system. Our framework consists of two language models: a translation language model and a speech synthesis language model. We use discretized speech units, which are generated in a fully unsupervised way, and thus our framework can be used for unwritten languages. For the speech synthesis part, we adopt the existing VALL-E X approach and build a unit-based audio language model. This grants our framework the ability to preserve the voice characteristics and the speaking style of the original speech. We examine our system on Chinese rightarrow English and English rightarrow Spanish pairs. Experimental results show that our system can generate speech with high translation quality and audio quality. Speech samples are available at https://speechtranslation.github.io/polyvoice.
PDF40December 15, 2024