Pheme: Эффективная и естественная генерация речи
Pheme: Efficient and Conversational Speech Generation
January 5, 2024
Авторы: Paweł Budzianowski, Taras Sereda, Tomasz Cichy, Ivan Vulić
cs.AI
Аннотация
В последние годы генерация речи достигла значительного прогресса, теперь обеспечивая возможность однократной генерации, которая зачастую практически неотличима от реального человеческого голоса. Интеграция таких достижений в генерацию речи с крупными языковыми моделями может революционизировать широкий спектр приложений. Однако для некоторых задач, таких как вспомогательные диалоговые системы, требуются естественные и разговорные инструменты генерации речи, которые также эффективно работают в реальном времени. Современные модели, такие как VALL-E и SoundStorm, основанные на иерархических нейронных аудиокодеках, требуют крупных нейронных компонентов и обширных данных для обучения, чтобы работать хорошо. В отличие от них, MQTTS стремится создавать более компактные модели для разговорного синтеза речи, используя данные разговорной речи меньшего масштаба. Однако их авторегрессивная природа приводит к высокой задержке при выводе, что ограничивает их использование в реальном времени. Чтобы смягчить текущие ограничения современных моделей синтеза речи, сохраняя их преимущества, в данной работе мы представляем серию моделей Pheme, которые 1) предлагают компактные, но высокопроизводительные модели, 2) позволяют параллельно генерировать речь, 3) обеспечивают естественную разговорную речь и 4) могут эффективно обучаться на данных разговорной речи меньшего масштаба, сокращая потребность в данных более чем в 10 раз, но при этом соответствуя качеству авторегрессивных моделей синтеза речи. Мы также показываем, что с помощью простого метода дистилляции "учитель-ученик" можно добиться значительного улучшения качества голоса для одноговорящих конфигураций на основе предобученных моделей Pheme, полагаясь исключительно на синтетическую речь, сгенерированную гораздо более крупными моделями-учителями. Аудиообразцы и предобученные модели доступны онлайн.
English
In recent years, speech generation has seen remarkable progress, now
achieving one-shot generation capability that is often virtually
indistinguishable from real human voice. Integrating such advancements in
speech generation with large language models might revolutionize a wide range
of applications. However, certain applications, such as assistive
conversational systems, require natural and conversational speech generation
tools that also operate efficiently in real time. Current state-of-the-art
models like VALL-E and SoundStorm, powered by hierarchical neural audio codecs,
require large neural components and extensive training data to work well. In
contrast, MQTTS aims to build more compact conversational TTS models while
capitalizing on smaller-scale real-life conversational speech data. However,
its autoregressive nature yields high inference latency and thus limits its
real-time usage. In order to mitigate the current limitations of the
state-of-the-art TTS models while capitalizing on their strengths, in this work
we introduce the Pheme model series that 1) offers compact yet high-performing
models, 2) allows for parallel speech generation of 3) natural conversational
speech, and 4) it can be trained efficiently on smaller-scale conversational
data, cutting data demands by more than 10x but still matching the quality of
the autoregressive TTS models. We also show that through simple teacher-student
distillation we can meet significant improvements in voice quality for
single-speaker setups on top of pretrained Pheme checkpoints, relying solely on
synthetic speech generated by much larger teacher models. Audio samples and
pretrained models are available online.