FocalCodec-Stream: Codificación de Voz de Bajo Bitrate en Streaming mediante Distilación Causal
FocalCodec-Stream: Streaming Low-Bitrate Speech Coding via Causal Distillation
September 19, 2025
Autores: Luca Della Libera, Cem Subakan, Mirco Ravanelli
cs.AI
Resumen
Los códecs neuronales de audio son un componente fundamental de las pipelines generativas de audio modernas. Aunque los códecs recientes logran una reconstrucción sólida a bajas tasas de bits y proporcionan representaciones potentes para tareas posteriores, la mayoría no son transmisibles en tiempo real, lo que limita su uso en aplicaciones de tiempo real. Presentamos FocalCodec-Stream, un códec híbrido basado en modulación focal que comprime el habla en un único libro de códigos binario a 0.55 - 0.80 kbps con una latencia teórica de 80 ms. Nuestro enfoque combina la destilación causal en múltiples etapas de WavLM con mejoras arquitectónicas específicas, incluyendo un módulo refinador ligero que mejora la calidad bajo restricciones de latencia. Los experimentos muestran que FocalCodec-Stream supera a los códecs transmisibles existentes en tasas de bits comparables, preservando tanto la información semántica como la acústica. El resultado es un equilibrio favorable entre la calidad de reconstrucción, el rendimiento en tareas posteriores, la latencia y la eficiencia. El código y los puntos de control se publicarán en https://github.com/lucadellalib/focalcodec.
English
Neural audio codecs are a fundamental component of modern generative audio
pipelines. Although recent codecs achieve strong low-bitrate reconstruction and
provide powerful representations for downstream tasks, most are non-streamable,
limiting their use in real-time applications. We present FocalCodec-Stream, a
hybrid codec based on focal modulation that compresses speech into a single
binary codebook at 0.55 - 0.80 kbps with a theoretical latency of 80 ms. Our
approach combines multi-stage causal distillation of WavLM with targeted
architectural improvements, including a lightweight refiner module that
enhances quality under latency constraints. Experiments show that
FocalCodec-Stream outperforms existing streamable codecs at comparable
bitrates, while preserving both semantic and acoustic information. The result
is a favorable trade-off between reconstruction quality, downstream task
performance, latency, and efficiency. Code and checkpoints will be released at
https://github.com/lucadellalib/focalcodec.