ChatPaper.aiChatPaper

FocalCodec-Stream: Streaming spraakcodering met lage bitrate via causale distillatie

FocalCodec-Stream: Streaming Low-Bitrate Speech Coding via Causal Distillation

September 19, 2025
Auteurs: Luca Della Libera, Cem Subakan, Mirco Ravanelli
cs.AI

Samenvatting

Neurale audiocodecs vormen een fundamenteel onderdeel van moderne generatieve audiopipelines. Hoewel recente codecs sterke reconstructie bij lage bitrates bereiken en krachtige representaties bieden voor downstream taken, zijn de meeste niet streambaar, wat hun gebruik in realtime toepassingen beperkt. Wij presenteren FocalCodec-Stream, een hybride codec gebaseerd op focale modulatie die spraak comprimeert in een enkele binaire codebook bij 0,55 - 0,80 kbps met een theoretische latentie van 80 ms. Onze aanpak combineert meerfasige causale distillatie van WavLM met gerichte architectuurverbeteringen, waaronder een lichtgewicht refiner-module die de kwaliteit verbetert onder latentiebeperkingen. Experimenten tonen aan dat FocalCodec-Stream bestaande streambare codecs overtreft bij vergelijkbare bitrates, terwijl zowel semantische als akoestische informatie behouden blijft. Het resultaat is een gunstige afweging tussen reconstructiekwaliteit, prestaties bij downstream taken, latentie en efficiëntie. Code en checkpoints zullen worden vrijgegeven op https://github.com/lucadellalib/focalcodec.
English
Neural audio codecs are a fundamental component of modern generative audio pipelines. Although recent codecs achieve strong low-bitrate reconstruction and provide powerful representations for downstream tasks, most are non-streamable, limiting their use in real-time applications. We present FocalCodec-Stream, a hybrid codec based on focal modulation that compresses speech into a single binary codebook at 0.55 - 0.80 kbps with a theoretical latency of 80 ms. Our approach combines multi-stage causal distillation of WavLM with targeted architectural improvements, including a lightweight refiner module that enhances quality under latency constraints. Experiments show that FocalCodec-Stream outperforms existing streamable codecs at comparable bitrates, while preserving both semantic and acoustic information. The result is a favorable trade-off between reconstruction quality, downstream task performance, latency, and efficiency. Code and checkpoints will be released at https://github.com/lucadellalib/focalcodec.
PDF12September 24, 2025