Эффективное моделирование языка речи через энергетическое расстояние в непрерывном латентном пространстве

Аннотация

Мы представляем SLED — альтернативный подход к моделированию речи, который заключается в кодировании речевых сигналов в последовательности непрерывных латентных представлений и их авторегрессивном моделировании с использованием целевой функции на основе энергетического расстояния. Энергетическое расстояние предоставляет аналитическую меру распределительного разрыва путем сравнения смоделированных и целевых выборок, что позволяет эффективно обучать модель для захвата лежащего в основе непрерывного авторегрессивного распределения. Благодаря отказу от использования остаточной векторной квантизации, SLED избегает ошибок дискретизации и устраняет необходимость в сложных иерархических архитектурах, характерных для существующих моделей речи. Это упрощает общий процесс моделирования, сохраняя при этом богатство речевой информации и эффективность вывода. Эмпирические результаты демонстрируют, что SLED достигает высокой производительности как в синтезе речи с нулевым обучением, так и в потоковом синтезе, что указывает на его потенциал для более широкого применения в универсальных моделях речи.

English

We introduce SLED, an alternative approach to speech language modeling by encoding speech waveforms into sequences of continuous latent representations and modeling them autoregressively using an energy distance objective. The energy distance offers an analytical measure of the distributional gap by contrasting simulated and target samples, enabling efficient training to capture the underlying continuous autoregressive distribution. By bypassing reliance on residual vector quantization, SLED avoids discretization errors and eliminates the need for the complicated hierarchical architectures common in existing speech language models. It simplifies the overall modeling pipeline while preserving the richness of speech information and maintaining inference efficiency. Empirical results demonstrate that SLED achieves strong performance in both zero-shot and streaming speech synthesis, showing its potential for broader applications in general-purpose speech language models.

Эффективное моделирование языка речи через энергетическое расстояние в непрерывном латентном пространстве

Efficient Speech Language Modeling via Energy Distance in Continuous Latent Space

Аннотация

Support