FocalCodec-Stream : Codage vocal à faible débit en streaming via distillation causale
FocalCodec-Stream: Streaming Low-Bitrate Speech Coding via Causal Distillation
September 19, 2025
papers.authors: Luca Della Libera, Cem Subakan, Mirco Ravanelli
cs.AI
papers.abstract
Les codecs audio neuronaux constituent un composant fondamental des pipelines génératifs audio modernes. Bien que les codecs récents atteignent une reconstruction de haute qualité à faible débit binaire et fournissent des représentations puissantes pour les tâches en aval, la plupart ne sont pas adaptés au streaming, limitant ainsi leur utilisation dans les applications en temps réel. Nous présentons FocalCodec-Stream, un codec hybride basé sur la modulation focale qui compresse la parole en un seul codebook binaire à un débit de 0,55 à 0,80 kbps avec une latence théorique de 80 ms. Notre approche combine une distillation causale multi-étapes de WavLM avec des améliorations architecturales ciblées, incluant un module de raffinement léger qui améliore la qualité sous contrainte de latence. Les expériences montrent que FocalCodec-Stream surpasse les codecs adaptés au streaming existants à des débits comparables, tout en préservant à la fois les informations sémantiques et acoustiques. Le résultat est un compromis favorable entre la qualité de reconstruction, la performance sur les tâches en aval, la latence et l'efficacité. Le code et les points de contrôle seront publiés sur https://github.com/lucadellalib/focalcodec.
English
Neural audio codecs are a fundamental component of modern generative audio
pipelines. Although recent codecs achieve strong low-bitrate reconstruction and
provide powerful representations for downstream tasks, most are non-streamable,
limiting their use in real-time applications. We present FocalCodec-Stream, a
hybrid codec based on focal modulation that compresses speech into a single
binary codebook at 0.55 - 0.80 kbps with a theoretical latency of 80 ms. Our
approach combines multi-stage causal distillation of WavLM with targeted
architectural improvements, including a lightweight refiner module that
enhances quality under latency constraints. Experiments show that
FocalCodec-Stream outperforms existing streamable codecs at comparable
bitrates, while preserving both semantic and acoustic information. The result
is a favorable trade-off between reconstruction quality, downstream task
performance, latency, and efficiency. Code and checkpoints will be released at
https://github.com/lucadellalib/focalcodec.