FocalCodec-Stream : Codage vocal à faible débit en streaming via distillation causale

papers.abstract

Les codecs audio neuronaux constituent un composant fondamental des pipelines génératifs audio modernes. Bien que les codecs récents atteignent une reconstruction de haute qualité à faible débit binaire et fournissent des représentations puissantes pour les tâches en aval, la plupart ne sont pas adaptés au streaming, limitant ainsi leur utilisation dans les applications en temps réel. Nous présentons FocalCodec-Stream, un codec hybride basé sur la modulation focale qui compresse la parole en un seul codebook binaire à un débit de 0,55 à 0,80 kbps avec une latence théorique de 80 ms. Notre approche combine une distillation causale multi-étapes de WavLM avec des améliorations architecturales ciblées, incluant un module de raffinement léger qui améliore la qualité sous contrainte de latence. Les expériences montrent que FocalCodec-Stream surpasse les codecs adaptés au streaming existants à des débits comparables, tout en préservant à la fois les informations sémantiques et acoustiques. Le résultat est un compromis favorable entre la qualité de reconstruction, la performance sur les tâches en aval, la latence et l'efficacité. Le code et les points de contrôle seront publiés sur https://github.com/lucadellalib/focalcodec.

English

Neural audio codecs are a fundamental component of modern generative audio pipelines. Although recent codecs achieve strong low-bitrate reconstruction and provide powerful representations for downstream tasks, most are non-streamable, limiting their use in real-time applications. We present FocalCodec-Stream, a hybrid codec based on focal modulation that compresses speech into a single binary codebook at 0.55 - 0.80 kbps with a theoretical latency of 80 ms. Our approach combines multi-stage causal distillation of WavLM with targeted architectural improvements, including a lightweight refiner module that enhances quality under latency constraints. Experiments show that FocalCodec-Stream outperforms existing streamable codecs at comparable bitrates, while preserving both semantic and acoustic information. The result is a favorable trade-off between reconstruction quality, downstream task performance, latency, and efficiency. Code and checkpoints will be released at https://github.com/lucadellalib/focalcodec.

FocalCodec-Stream : Codage vocal à faible débit en streaming via distillation causale

FocalCodec-Stream: Streaming Low-Bitrate Speech Coding via Causal Distillation

papers.abstract

Support