Эффективное моделирование языка речи через энергетическое расстояние в непрерывном латентном пространстве
Efficient Speech Language Modeling via Energy Distance in Continuous Latent Space
May 19, 2025
Авторы: Zhengrui Ma, Yang Feng, Chenze Shao, Fandong Meng, Jie Zhou, Min Zhang
cs.AI
Аннотация
Мы представляем SLED — альтернативный подход к моделированию речи, который заключается в кодировании речевых сигналов в последовательности непрерывных латентных представлений и их авторегрессивном моделировании с использованием целевой функции на основе энергетического расстояния. Энергетическое расстояние предоставляет аналитическую меру распределительного разрыва путем сравнения смоделированных и целевых выборок, что позволяет эффективно обучать модель для захвата лежащего в основе непрерывного авторегрессивного распределения. Благодаря отказу от использования остаточной векторной квантизации, SLED избегает ошибок дискретизации и устраняет необходимость в сложных иерархических архитектурах, характерных для существующих моделей речи. Это упрощает общий процесс моделирования, сохраняя при этом богатство речевой информации и эффективность вывода. Эмпирические результаты демонстрируют, что SLED достигает высокой производительности как в синтезе речи с нулевым обучением, так и в потоковом синтезе, что указывает на его потенциал для более широкого применения в универсальных моделях речи.
English
We introduce SLED, an alternative approach to speech language modeling by
encoding speech waveforms into sequences of continuous latent representations
and modeling them autoregressively using an energy distance objective. The
energy distance offers an analytical measure of the distributional gap by
contrasting simulated and target samples, enabling efficient training to
capture the underlying continuous autoregressive distribution. By bypassing
reliance on residual vector quantization, SLED avoids discretization errors and
eliminates the need for the complicated hierarchical architectures common in
existing speech language models. It simplifies the overall modeling pipeline
while preserving the richness of speech information and maintaining inference
efficiency. Empirical results demonstrate that SLED achieves strong performance
in both zero-shot and streaming speech synthesis, showing its potential for
broader applications in general-purpose speech language models.Summary
AI-Generated Summary