Modelado Eficiente del Lenguaje Hablado mediante Distancia de Energía en Espacios Latentes Continuos
Efficient Speech Language Modeling via Energy Distance in Continuous Latent Space
May 19, 2025
Autores: Zhengrui Ma, Yang Feng, Chenze Shao, Fandong Meng, Jie Zhou, Min Zhang
cs.AI
Resumen
Presentamos SLED, un enfoque alternativo para el modelado del lenguaje hablado que codifica las formas de onda de audio en secuencias de representaciones latentes continuas y las modela de manera autoregresiva utilizando un objetivo de distancia de energía. La distancia de energía ofrece una medida analítica de la brecha distribucional al contrastar muestras simuladas y objetivo, permitiendo un entrenamiento eficiente para capturar la distribución autoregresiva continua subyacente. Al evitar la dependencia de la cuantización vectorial residual, SLED elimina los errores de discretización y prescinde de las complejas arquitecturas jerárquicas comunes en los modelos de lenguaje hablado existentes. Simplifica la pipeline de modelado en general mientras preserva la riqueza de la información del habla y mantiene la eficiencia en la inferencia. Los resultados empíricos demuestran que SLED logra un rendimiento sólido tanto en la síntesis de habla zero-shot como en streaming, mostrando su potencial para aplicaciones más amplias en modelos de lenguaje hablado de propósito general.
English
We introduce SLED, an alternative approach to speech language modeling by
encoding speech waveforms into sequences of continuous latent representations
and modeling them autoregressively using an energy distance objective. The
energy distance offers an analytical measure of the distributional gap by
contrasting simulated and target samples, enabling efficient training to
capture the underlying continuous autoregressive distribution. By bypassing
reliance on residual vector quantization, SLED avoids discretization errors and
eliminates the need for the complicated hierarchical architectures common in
existing speech language models. It simplifies the overall modeling pipeline
while preserving the richness of speech information and maintaining inference
efficiency. Empirical results demonstrate that SLED achieves strong performance
in both zero-shot and streaming speech synthesis, showing its potential for
broader applications in general-purpose speech language models.Summary
AI-Generated Summary