FocalCodec-Stream: Codifica Vocale a Basso Bitrate in Streaming tramite Distillazione Causale
FocalCodec-Stream: Streaming Low-Bitrate Speech Coding via Causal Distillation
September 19, 2025
Autori: Luca Della Libera, Cem Subakan, Mirco Ravanelli
cs.AI
Abstract
I codec neurali audio sono un componente fondamentale delle moderne pipeline generative audio. Sebbene i codec recenti raggiungano una ricostruzione di alta qualità a basso bitrate e forniscano rappresentazioni potenti per task downstream, la maggior parte non è streamable, limitando il loro utilizzo in applicazioni in tempo reale. Presentiamo FocalCodec-Stream, un codec ibrido basato sulla modulazione focale che comprime il parlato in un singolo codebook binario a 0,55 - 0,80 kbps con una latenza teorica di 80 ms. Il nostro approccio combina una distillazione causale multi-stadio di WavLM con miglioramenti architetturali mirati, inclusi un modulo refiner leggero che migliora la qualità sotto vincoli di latenza. Gli esperimenti dimostrano che FocalCodec-Stream supera i codec streamable esistenti a bitrate comparabili, preservando sia le informazioni semantiche che acustiche. Il risultato è un compromesso favorevole tra qualità di ricostruzione, prestazioni nei task downstream, latenza ed efficienza. Codice e checkpoint saranno rilasciati su https://github.com/lucadellalib/focalcodec.
English
Neural audio codecs are a fundamental component of modern generative audio
pipelines. Although recent codecs achieve strong low-bitrate reconstruction and
provide powerful representations for downstream tasks, most are non-streamable,
limiting their use in real-time applications. We present FocalCodec-Stream, a
hybrid codec based on focal modulation that compresses speech into a single
binary codebook at 0.55 - 0.80 kbps with a theoretical latency of 80 ms. Our
approach combines multi-stage causal distillation of WavLM with targeted
architectural improvements, including a lightweight refiner module that
enhances quality under latency constraints. Experiments show that
FocalCodec-Stream outperforms existing streamable codecs at comparable
bitrates, while preserving both semantic and acoustic information. The result
is a favorable trade-off between reconstruction quality, downstream task
performance, latency, and efficiency. Code and checkpoints will be released at
https://github.com/lucadellalib/focalcodec.