FocalCodec-Stream: Codificación de Voz de Bajo Bitrate en Streaming mediante Distilación Causal

Resumen

Los códecs neuronales de audio son un componente fundamental de las pipelines generativas de audio modernas. Aunque los códecs recientes logran una reconstrucción sólida a bajas tasas de bits y proporcionan representaciones potentes para tareas posteriores, la mayoría no son transmisibles en tiempo real, lo que limita su uso en aplicaciones de tiempo real. Presentamos FocalCodec-Stream, un códec híbrido basado en modulación focal que comprime el habla en un único libro de códigos binario a 0.55 - 0.80 kbps con una latencia teórica de 80 ms. Nuestro enfoque combina la destilación causal en múltiples etapas de WavLM con mejoras arquitectónicas específicas, incluyendo un módulo refinador ligero que mejora la calidad bajo restricciones de latencia. Los experimentos muestran que FocalCodec-Stream supera a los códecs transmisibles existentes en tasas de bits comparables, preservando tanto la información semántica como la acústica. El resultado es un equilibrio favorable entre la calidad de reconstrucción, el rendimiento en tareas posteriores, la latencia y la eficiencia. El código y los puntos de control se publicarán en https://github.com/lucadellalib/focalcodec.

English

Neural audio codecs are a fundamental component of modern generative audio pipelines. Although recent codecs achieve strong low-bitrate reconstruction and provide powerful representations for downstream tasks, most are non-streamable, limiting their use in real-time applications. We present FocalCodec-Stream, a hybrid codec based on focal modulation that compresses speech into a single binary codebook at 0.55 - 0.80 kbps with a theoretical latency of 80 ms. Our approach combines multi-stage causal distillation of WavLM with targeted architectural improvements, including a lightweight refiner module that enhances quality under latency constraints. Experiments show that FocalCodec-Stream outperforms existing streamable codecs at comparable bitrates, while preserving both semantic and acoustic information. The result is a favorable trade-off between reconstruction quality, downstream task performance, latency, and efficiency. Code and checkpoints will be released at https://github.com/lucadellalib/focalcodec.