FocalCodec-Stream: Streaming spraakcodering met lage bitrate via causale distillatie
FocalCodec-Stream: Streaming Low-Bitrate Speech Coding via Causal Distillation
September 19, 2025
Auteurs: Luca Della Libera, Cem Subakan, Mirco Ravanelli
cs.AI
Samenvatting
Neurale audiocodecs vormen een fundamenteel onderdeel van moderne generatieve audiopipelines. Hoewel recente codecs sterke reconstructie bij lage bitrates bereiken en krachtige representaties bieden voor downstream taken, zijn de meeste niet streambaar, wat hun gebruik in realtime toepassingen beperkt. Wij presenteren FocalCodec-Stream, een hybride codec gebaseerd op focale modulatie die spraak comprimeert in een enkele binaire codebook bij 0,55 - 0,80 kbps met een theoretische latentie van 80 ms. Onze aanpak combineert meerfasige causale distillatie van WavLM met gerichte architectuurverbeteringen, waaronder een lichtgewicht refiner-module die de kwaliteit verbetert onder latentiebeperkingen. Experimenten tonen aan dat FocalCodec-Stream bestaande streambare codecs overtreft bij vergelijkbare bitrates, terwijl zowel semantische als akoestische informatie behouden blijft. Het resultaat is een gunstige afweging tussen reconstructiekwaliteit, prestaties bij downstream taken, latentie en efficiëntie. Code en checkpoints zullen worden vrijgegeven op https://github.com/lucadellalib/focalcodec.
English
Neural audio codecs are a fundamental component of modern generative audio
pipelines. Although recent codecs achieve strong low-bitrate reconstruction and
provide powerful representations for downstream tasks, most are non-streamable,
limiting their use in real-time applications. We present FocalCodec-Stream, a
hybrid codec based on focal modulation that compresses speech into a single
binary codebook at 0.55 - 0.80 kbps with a theoretical latency of 80 ms. Our
approach combines multi-stage causal distillation of WavLM with targeted
architectural improvements, including a lightweight refiner module that
enhances quality under latency constraints. Experiments show that
FocalCodec-Stream outperforms existing streamable codecs at comparable
bitrates, while preserving both semantic and acoustic information. The result
is a favorable trade-off between reconstruction quality, downstream task
performance, latency, and efficiency. Code and checkpoints will be released at
https://github.com/lucadellalib/focalcodec.