PolyVoice: Языковые модели для перевода речи в речь

Аннотация

Мы представляем PolyVoice, основанную на языковых моделях платформу для системы перевода "речь-в-речь" (S2ST). Наша платформа состоит из двух языковых моделей: модели перевода и модели синтеза речи. Мы используем дискретизированные речевые единицы, которые генерируются полностью неконтролируемым способом, что позволяет применять нашу платформу для языков без письменности. Для части синтеза речи мы адаптируем существующий подход VALL-E X и создаем аудио языковую модель на основе речевых единиц. Это наделяет нашу платформу способностью сохранять голосовые характеристики и стиль речи исходного аудио. Мы тестируем нашу систему на парах китайский → английский и английский → испанский. Экспериментальные результаты показывают, что наша система способна генерировать речь с высоким качеством перевода и звучания. Примеры аудио доступны по ссылке: https://speechtranslation.github.io/polyvoice.

English

We propose PolyVoice, a language model-based framework for speech-to-speech translation (S2ST) system. Our framework consists of two language models: a translation language model and a speech synthesis language model. We use discretized speech units, which are generated in a fully unsupervised way, and thus our framework can be used for unwritten languages. For the speech synthesis part, we adopt the existing VALL-E X approach and build a unit-based audio language model. This grants our framework the ability to preserve the voice characteristics and the speaking style of the original speech. We examine our system on Chinese rightarrow English and English rightarrow Spanish pairs. Experimental results show that our system can generate speech with high translation quality and audio quality. Speech samples are available at https://speechtranslation.github.io/polyvoice.

PolyVoice: Языковые модели для перевода речи в речь

PolyVoice: Language Models for Speech to Speech Translation

Аннотация

Support