PolyVoice: Taalmodellen voor Spraak-naar-Spraak Vertaling
PolyVoice: Language Models for Speech to Speech Translation
June 5, 2023
Auteurs: Qianqian Dong, Zhiying Huang, Chen Xu, Yunlong Zhao, Kexin Wang, Xuxin Cheng, Tom Ko, Qiao Tian, Tang Li, Fengpeng Yue, Ye Bai, Xi Chen, Lu Lu, Zejun Ma, Yuping Wang, Mingxuan Wang, Yuxuan Wang
cs.AI
Samenvatting
Wij stellen PolyVoice voor, een op taalmodellen gebaseerd raamwerk voor een spraak-naar-spraak vertaalsysteem (S2ST). Ons raamwerk bestaat uit twee taalmodellen: een vertaaltaalmodel en een spraaksynthesetaalmodel. We gebruiken gediscretiseerde spraakeenheden, die op een volledig onbewaakte manier worden gegenereerd, waardoor ons raamwerk kan worden gebruikt voor ongeschreven talen. Voor het spraaksynthesegedeelte nemen we de bestaande VALL-E X-benadering over en bouwen we een op eenheden gebaseerd audiotaalmodel. Dit geeft ons raamwerk de mogelijkheid om de stemkenmerken en spreekstijl van de originele spraak te behouden. We testen ons systeem op Chinese → Engelse en Engelse → Spaanse taalparen. Experimentele resultaten tonen aan dat ons systeem spraak kan genereren met hoge vertaalkwaliteit en audiokwaliteit. Spraakvoorbeelden zijn beschikbaar op https://speechtranslation.github.io/polyvoice.
English
We propose PolyVoice, a language model-based framework for speech-to-speech
translation (S2ST) system. Our framework consists of two language models: a
translation language model and a speech synthesis language model. We use
discretized speech units, which are generated in a fully unsupervised way, and
thus our framework can be used for unwritten languages. For the speech
synthesis part, we adopt the existing VALL-E X approach and build a unit-based
audio language model. This grants our framework the ability to preserve the
voice characteristics and the speaking style of the original speech. We examine
our system on Chinese rightarrow English and English rightarrow Spanish
pairs. Experimental results show that our system can generate speech with high
translation quality and audio quality. Speech samples are available at
https://speechtranslation.github.io/polyvoice.