PolyVoice: Sprachmodelle für die Sprach-zu-Sprach-Übersetzung

Zusammenfassung

Wir stellen PolyVoice vor, ein auf Sprachmodellen basierendes Framework für ein Sprach-zu-Sprach-Übersetzungssystem (S2ST). Unser Framework besteht aus zwei Sprachmodellen: einem Übersetzungs-Sprachmodell und einem Sprachsynthese-Sprachmodell. Wir verwenden diskretisierte Spracheinheiten, die auf vollständig unüberwachte Weise generiert werden, wodurch unser Framework auch für nicht verschriftlichte Sprachen eingesetzt werden kann. Für den Sprachsynthese-Teil übernehmen wir den bestehenden VALL-E X-Ansatz und entwickeln ein einheitenbasiertes Audio-Sprachmodell. Dies verleiht unserem Framework die Fähigkeit, die Stimmcharakteristika und den Sprechstil der ursprünglichen Sprache zu bewahren. Wir testen unser System anhand der Sprachpaare Chinesisch → Englisch und Englisch → Spanisch. Die experimentellen Ergebnisse zeigen, dass unser System Sprache mit hoher Übersetzungsqualität und Audioqualität erzeugen kann. Sprachbeispiele sind unter https://speechtranslation.github.io/polyvoice verfügbar.

English

We propose PolyVoice, a language model-based framework for speech-to-speech translation (S2ST) system. Our framework consists of two language models: a translation language model and a speech synthesis language model. We use discretized speech units, which are generated in a fully unsupervised way, and thus our framework can be used for unwritten languages. For the speech synthesis part, we adopt the existing VALL-E X approach and build a unit-based audio language model. This grants our framework the ability to preserve the voice characteristics and the speaking style of the original speech. We examine our system on Chinese rightarrow English and English rightarrow Spanish pairs. Experimental results show that our system can generate speech with high translation quality and audio quality. Speech samples are available at https://speechtranslation.github.io/polyvoice.

PolyVoice: Sprachmodelle für die Sprach-zu-Sprach-Übersetzung

PolyVoice: Language Models for Speech to Speech Translation

Zusammenfassung

Support