FocalCodec-Stream: Codifica Vocale a Basso Bitrate in Streaming tramite Distillazione Causale

Abstract

I codec neurali audio sono un componente fondamentale delle moderne pipeline generative audio. Sebbene i codec recenti raggiungano una ricostruzione di alta qualità a basso bitrate e forniscano rappresentazioni potenti per task downstream, la maggior parte non è streamable, limitando il loro utilizzo in applicazioni in tempo reale. Presentiamo FocalCodec-Stream, un codec ibrido basato sulla modulazione focale che comprime il parlato in un singolo codebook binario a 0,55 - 0,80 kbps con una latenza teorica di 80 ms. Il nostro approccio combina una distillazione causale multi-stadio di WavLM con miglioramenti architetturali mirati, inclusi un modulo refiner leggero che migliora la qualità sotto vincoli di latenza. Gli esperimenti dimostrano che FocalCodec-Stream supera i codec streamable esistenti a bitrate comparabili, preservando sia le informazioni semantiche che acustiche. Il risultato è un compromesso favorevole tra qualità di ricostruzione, prestazioni nei task downstream, latenza ed efficienza. Codice e checkpoint saranno rilasciati su https://github.com/lucadellalib/focalcodec.

English

Neural audio codecs are a fundamental component of modern generative audio pipelines. Although recent codecs achieve strong low-bitrate reconstruction and provide powerful representations for downstream tasks, most are non-streamable, limiting their use in real-time applications. We present FocalCodec-Stream, a hybrid codec based on focal modulation that compresses speech into a single binary codebook at 0.55 - 0.80 kbps with a theoretical latency of 80 ms. Our approach combines multi-stage causal distillation of WavLM with targeted architectural improvements, including a lightweight refiner module that enhances quality under latency constraints. Experiments show that FocalCodec-Stream outperforms existing streamable codecs at comparable bitrates, while preserving both semantic and acoustic information. The result is a favorable trade-off between reconstruction quality, downstream task performance, latency, and efficiency. Code and checkpoints will be released at https://github.com/lucadellalib/focalcodec.

FocalCodec-Stream: Codifica Vocale a Basso Bitrate in Streaming tramite Distillazione Causale

FocalCodec-Stream: Streaming Low-Bitrate Speech Coding via Causal Distillation

Abstract

Support