Effiziente Sprachmodellierung durch Energieabstand im kontinuierlichen latenten Raum
Efficient Speech Language Modeling via Energy Distance in Continuous Latent Space
May 19, 2025
Autoren: Zhengrui Ma, Yang Feng, Chenze Shao, Fandong Meng, Jie Zhou, Min Zhang
cs.AI
Zusammenfassung
Wir stellen SLED vor, einen alternativen Ansatz zur Sprachmodellierung, bei dem Sprachwellenformen in Sequenzen kontinuierlicher latenter Repräsentationen kodiert und autoregressiv mithilfe eines Energie-Distanz-Ziels modelliert werden. Die Energie-Distanz bietet ein analytisches Maß für die Verteilungslücke, indem simulierte und Zielproben gegenübergestellt werden, was ein effizientes Training ermöglicht, um die zugrunde liegende kontinuierliche autoregressive Verteilung zu erfassen. Durch den Verzicht auf die Abhängigkeit von residualer Vektorquantisierung vermeidet SLED Diskretisierungsfehler und eliminiert die Notwendigkeit für die komplexen hierarchischen Architekturen, die in bestehenden Sprachmodellen üblich sind. Es vereinfacht die gesamte Modellierungspipeline, während die Reichhaltigkeit der Sprachinformationen erhalten bleibt und die Inferenzeffizienz gewährleistet wird. Empirische Ergebnisse zeigen, dass SLED sowohl bei der Zero-Shot- als auch bei der Streaming-Sprachsynthese eine starke Leistung erzielt, was sein Potenzial für breitere Anwendungen in allgemeinen Sprachmodellen verdeutlicht.
English
We introduce SLED, an alternative approach to speech language modeling by
encoding speech waveforms into sequences of continuous latent representations
and modeling them autoregressively using an energy distance objective. The
energy distance offers an analytical measure of the distributional gap by
contrasting simulated and target samples, enabling efficient training to
capture the underlying continuous autoregressive distribution. By bypassing
reliance on residual vector quantization, SLED avoids discretization errors and
eliminates the need for the complicated hierarchical architectures common in
existing speech language models. It simplifies the overall modeling pipeline
while preserving the richness of speech information and maintaining inference
efficiency. Empirical results demonstrate that SLED achieves strong performance
in both zero-shot and streaming speech synthesis, showing its potential for
broader applications in general-purpose speech language models.Summary
AI-Generated Summary