Efficiënte Spraaktaalmodellering via Energieafstand in Continue Latente Ruimte
Efficient Speech Language Modeling via Energy Distance in Continuous Latent Space
May 19, 2025
Auteurs: Zhengrui Ma, Yang Feng, Chenze Shao, Fandong Meng, Jie Zhou, Min Zhang
cs.AI
Samenvatting
We introduceren SLED, een alternatieve benadering voor spraaktaalmodellering door
spraakgolven te coderen in reeksen van continue latente representaties
en deze autoregressief te modelleren met behulp van een energiedistance-doelstelling. De
energiedistance biedt een analytische maatstaf voor de distributiekloof door
gesimuleerde en doelmonsters te vergelijken, wat efficiënte training mogelijk maakt om
de onderliggende continue autoregressieve distributie vast te leggen. Door de afhankelijkheid van
residuele vectorkwantisatie te omzeilen, vermijdt SLED discretisatiefouten en
elimineert het de noodzaak voor de ingewikkelde hiërarchische architecturen die gebruikelijk zijn in
bestaande spraaktaalmodellen. Het vereenvoudigt de algehele modelleerpipeline
terwijl de rijkdom van spraakinformatie behouden blijft en de inferentie-efficiëntie
gehandhaafd wordt. Empirische resultaten tonen aan dat SLED sterke prestaties levert
in zowel zero-shot als streaming spraaksynthese, wat het potentieel aantoont voor
bredere toepassingen in algemene spraaktaalmodellen.
English
We introduce SLED, an alternative approach to speech language modeling by
encoding speech waveforms into sequences of continuous latent representations
and modeling them autoregressively using an energy distance objective. The
energy distance offers an analytical measure of the distributional gap by
contrasting simulated and target samples, enabling efficient training to
capture the underlying continuous autoregressive distribution. By bypassing
reliance on residual vector quantization, SLED avoids discretization errors and
eliminates the need for the complicated hierarchical architectures common in
existing speech language models. It simplifies the overall modeling pipeline
while preserving the richness of speech information and maintaining inference
efficiency. Empirical results demonstrate that SLED achieves strong performance
in both zero-shot and streaming speech synthesis, showing its potential for
broader applications in general-purpose speech language models.Summary
AI-Generated Summary