PolyVoice: 음성 간 번역을 위한 언어 모델
PolyVoice: Language Models for Speech to Speech Translation
June 5, 2023
저자: Qianqian Dong, Zhiying Huang, Chen Xu, Yunlong Zhao, Kexin Wang, Xuxin Cheng, Tom Ko, Qiao Tian, Tang Li, Fengpeng Yue, Ye Bai, Xi Chen, Lu Lu, Zejun Ma, Yuping Wang, Mingxuan Wang, Yuxuan Wang
cs.AI
초록
우리는 음성-음성 번역(S2ST) 시스템을 위한 언어 모델 기반 프레임워크인 PolyVoice를 제안합니다. 우리의 프레임워크는 두 개의 언어 모델로 구성됩니다: 번역 언어 모델과 음성 합성 언어 모델. 우리는 완전히 비지도 방식으로 생성된 이산화된 음성 단위를 사용하며, 이를 통해 우리의 프레임워크는 문자로 기록되지 않은 언어에도 적용할 수 있습니다. 음성 합성 부분에서는 기존의 VALL-E X 접근 방식을 채택하고 단위 기반 오디오 언어 모델을 구축합니다. 이를 통해 우리의 프레임워크는 원본 음성의 음성 특성과 발화 스타일을 보존할 수 있는 능력을 갖추게 됩니다. 우리는 중국어 → 영어 및 영어 → 스페인어 쌍에 대해 시스템을 검증했습니다. 실험 결과는 우리의 시스템이 높은 번역 품질과 오디오 품질의 음성을 생성할 수 있음을 보여줍니다. 음성 샘플은 https://speechtranslation.github.io/polyvoice에서 확인할 수 있습니다.
English
We propose PolyVoice, a language model-based framework for speech-to-speech
translation (S2ST) system. Our framework consists of two language models: a
translation language model and a speech synthesis language model. We use
discretized speech units, which are generated in a fully unsupervised way, and
thus our framework can be used for unwritten languages. For the speech
synthesis part, we adopt the existing VALL-E X approach and build a unit-based
audio language model. This grants our framework the ability to preserve the
voice characteristics and the speaking style of the original speech. We examine
our system on Chinese rightarrow English and English rightarrow Spanish
pairs. Experimental results show that our system can generate speech with high
translation quality and audio quality. Speech samples are available at
https://speechtranslation.github.io/polyvoice.