FocalCodec-Stream: Streaming-Sprachcodierung mit niedriger Bitrate durch kausale Destillation

papers.abstract

Neurale Audiocodecs sind eine grundlegende Komponente moderner generativer Audio-Pipelines. Obwohl aktuelle Codecs eine starke Rekonstruktion bei niedriger Bitrate erreichen und leistungsstarke Repräsentationen für nachgelagerte Aufgaben bieten, sind die meisten nicht streamfähig, was ihren Einsatz in Echtzeitanwendungen einschränkt. Wir stellen FocalCodec-Stream vor, einen hybriden Codec basierend auf fokaler Modulation, der Sprache in ein einzelnes binäres Codebuch bei 0,55 - 0,80 kbps mit einer theoretischen Latenz von 80 ms komprimiert. Unser Ansatz kombiniert eine mehrstufige kausale Destillation von WavLM mit gezielten architektonischen Verbesserungen, einschließlich eines leichten Verfeinerungsmoduls, das die Qualität unter Latenzbeschränkungen verbessert. Experimente zeigen, dass FocalCodec-Stream bestehende streamfähige Codecs bei vergleichbaren Bitraten übertrifft, während sowohl semantische als auch akustische Informationen erhalten bleiben. Das Ergebnis ist ein vorteilhafter Kompromiss zwischen Rekonstruktionsqualität, Leistung bei nachgelagerten Aufgaben, Latenz und Effizienz. Code und Checkpoints werden unter https://github.com/lucadellalib/focalcodec veröffentlicht.

English

Neural audio codecs are a fundamental component of modern generative audio pipelines. Although recent codecs achieve strong low-bitrate reconstruction and provide powerful representations for downstream tasks, most are non-streamable, limiting their use in real-time applications. We present FocalCodec-Stream, a hybrid codec based on focal modulation that compresses speech into a single binary codebook at 0.55 - 0.80 kbps with a theoretical latency of 80 ms. Our approach combines multi-stage causal distillation of WavLM with targeted architectural improvements, including a lightweight refiner module that enhances quality under latency constraints. Experiments show that FocalCodec-Stream outperforms existing streamable codecs at comparable bitrates, while preserving both semantic and acoustic information. The result is a favorable trade-off between reconstruction quality, downstream task performance, latency, and efficiency. Code and checkpoints will be released at https://github.com/lucadellalib/focalcodec.

FocalCodec-Stream: Streaming-Sprachcodierung mit niedriger Bitrate durch kausale Destillation

FocalCodec-Stream: Streaming Low-Bitrate Speech Coding via Causal Distillation

papers.abstract

Support