ChatPaper.aiChatPaper

Efficiënte Spraaktaalmodellering via Energieafstand in Continue Latente Ruimte

Efficient Speech Language Modeling via Energy Distance in Continuous Latent Space

May 19, 2025
Auteurs: Zhengrui Ma, Yang Feng, Chenze Shao, Fandong Meng, Jie Zhou, Min Zhang
cs.AI

Samenvatting

We introduceren SLED, een alternatieve benadering voor spraaktaalmodellering door spraakgolven te coderen in reeksen van continue latente representaties en deze autoregressief te modelleren met behulp van een energiedistance-doelstelling. De energiedistance biedt een analytische maatstaf voor de distributiekloof door gesimuleerde en doelmonsters te vergelijken, wat efficiënte training mogelijk maakt om de onderliggende continue autoregressieve distributie vast te leggen. Door de afhankelijkheid van residuele vectorkwantisatie te omzeilen, vermijdt SLED discretisatiefouten en elimineert het de noodzaak voor de ingewikkelde hiërarchische architecturen die gebruikelijk zijn in bestaande spraaktaalmodellen. Het vereenvoudigt de algehele modelleerpipeline terwijl de rijkdom van spraakinformatie behouden blijft en de inferentie-efficiëntie gehandhaafd wordt. Empirische resultaten tonen aan dat SLED sterke prestaties levert in zowel zero-shot als streaming spraaksynthese, wat het potentieel aantoont voor bredere toepassingen in algemene spraaktaalmodellen.
English
We introduce SLED, an alternative approach to speech language modeling by encoding speech waveforms into sequences of continuous latent representations and modeling them autoregressively using an energy distance objective. The energy distance offers an analytical measure of the distributional gap by contrasting simulated and target samples, enabling efficient training to capture the underlying continuous autoregressive distribution. By bypassing reliance on residual vector quantization, SLED avoids discretization errors and eliminates the need for the complicated hierarchical architectures common in existing speech language models. It simplifies the overall modeling pipeline while preserving the richness of speech information and maintaining inference efficiency. Empirical results demonstrate that SLED achieves strong performance in both zero-shot and streaming speech synthesis, showing its potential for broader applications in general-purpose speech language models.

Summary

AI-Generated Summary

PDF82May 21, 2025