PolyVoice: Taalmodellen voor Spraak-naar-Spraak Vertaling

Samenvatting

Wij stellen PolyVoice voor, een op taalmodellen gebaseerd raamwerk voor een spraak-naar-spraak vertaalsysteem (S2ST). Ons raamwerk bestaat uit twee taalmodellen: een vertaaltaalmodel en een spraaksynthesetaalmodel. We gebruiken gediscretiseerde spraakeenheden, die op een volledig onbewaakte manier worden gegenereerd, waardoor ons raamwerk kan worden gebruikt voor ongeschreven talen. Voor het spraaksynthesegedeelte nemen we de bestaande VALL-E X-benadering over en bouwen we een op eenheden gebaseerd audiotaalmodel. Dit geeft ons raamwerk de mogelijkheid om de stemkenmerken en spreekstijl van de originele spraak te behouden. We testen ons systeem op Chinese → Engelse en Engelse → Spaanse taalparen. Experimentele resultaten tonen aan dat ons systeem spraak kan genereren met hoge vertaalkwaliteit en audiokwaliteit. Spraakvoorbeelden zijn beschikbaar op https://speechtranslation.github.io/polyvoice.

English

We propose PolyVoice, a language model-based framework for speech-to-speech translation (S2ST) system. Our framework consists of two language models: a translation language model and a speech synthesis language model. We use discretized speech units, which are generated in a fully unsupervised way, and thus our framework can be used for unwritten languages. For the speech synthesis part, we adopt the existing VALL-E X approach and build a unit-based audio language model. This grants our framework the ability to preserve the voice characteristics and the speaking style of the original speech. We examine our system on Chinese rightarrow English and English rightarrow Spanish pairs. Experimental results show that our system can generate speech with high translation quality and audio quality. Speech samples are available at https://speechtranslation.github.io/polyvoice.

PolyVoice: Taalmodellen voor Spraak-naar-Spraak Vertaling

PolyVoice: Language Models for Speech to Speech Translation

Samenvatting

Support