FocalCodec-Stream: Streaming-Sprachcodierung mit niedriger Bitrate durch kausale Destillation
FocalCodec-Stream: Streaming Low-Bitrate Speech Coding via Causal Distillation
September 19, 2025
papers.authors: Luca Della Libera, Cem Subakan, Mirco Ravanelli
cs.AI
papers.abstract
Neurale Audiocodecs sind eine grundlegende Komponente moderner generativer Audio-Pipelines. Obwohl aktuelle Codecs eine starke Rekonstruktion bei niedriger Bitrate erreichen und leistungsstarke Repräsentationen für nachgelagerte Aufgaben bieten, sind die meisten nicht streamfähig, was ihren Einsatz in Echtzeitanwendungen einschränkt. Wir stellen FocalCodec-Stream vor, einen hybriden Codec basierend auf fokaler Modulation, der Sprache in ein einzelnes binäres Codebuch bei 0,55 - 0,80 kbps mit einer theoretischen Latenz von 80 ms komprimiert. Unser Ansatz kombiniert eine mehrstufige kausale Destillation von WavLM mit gezielten architektonischen Verbesserungen, einschließlich eines leichten Verfeinerungsmoduls, das die Qualität unter Latenzbeschränkungen verbessert. Experimente zeigen, dass FocalCodec-Stream bestehende streamfähige Codecs bei vergleichbaren Bitraten übertrifft, während sowohl semantische als auch akustische Informationen erhalten bleiben. Das Ergebnis ist ein vorteilhafter Kompromiss zwischen Rekonstruktionsqualität, Leistung bei nachgelagerten Aufgaben, Latenz und Effizienz. Code und Checkpoints werden unter https://github.com/lucadellalib/focalcodec veröffentlicht.
English
Neural audio codecs are a fundamental component of modern generative audio
pipelines. Although recent codecs achieve strong low-bitrate reconstruction and
provide powerful representations for downstream tasks, most are non-streamable,
limiting their use in real-time applications. We present FocalCodec-Stream, a
hybrid codec based on focal modulation that compresses speech into a single
binary codebook at 0.55 - 0.80 kbps with a theoretical latency of 80 ms. Our
approach combines multi-stage causal distillation of WavLM with targeted
architectural improvements, including a lightweight refiner module that
enhances quality under latency constraints. Experiments show that
FocalCodec-Stream outperforms existing streamable codecs at comparable
bitrates, while preserving both semantic and acoustic information. The result
is a favorable trade-off between reconstruction quality, downstream task
performance, latency, and efficiency. Code and checkpoints will be released at
https://github.com/lucadellalib/focalcodec.