FocalCodec-Stream: Codificação de Fala de Baixa Taxa de Bits em Tempo Real via Destilação Causal

Resumo

Codecs neurais de áudio são um componente fundamental dos pipelines modernos de geração de áudio. Embora os codecs recentes alcancem uma forte reconstrução em baixa taxa de bits e forneçam representações poderosas para tarefas subsequentes, a maioria não é transmissível, limitando seu uso em aplicações em tempo real. Apresentamos o FocalCodec-Stream, um codec híbrido baseado em modulação focal que comprime fala em um único codebook binário a 0,55 - 0,80 kbps com uma latência teórica de 80 ms. Nossa abordagem combina a destilação causal em múltiplos estágios do WavLM com melhorias arquitetônicas direcionadas, incluindo um módulo refinador leve que melhora a qualidade sob restrições de latência. Experimentos mostram que o FocalCodec-Stream supera os codecs transmissíveis existentes em taxas de bits comparáveis, preservando tanto a informação semântica quanto a acústica. O resultado é um equilíbrio favorável entre qualidade de reconstrução, desempenho em tarefas subsequentes, latência e eficiência. O código e os checkpoints serão disponibilizados em https://github.com/lucadellalib/focalcodec.

English

Neural audio codecs are a fundamental component of modern generative audio pipelines. Although recent codecs achieve strong low-bitrate reconstruction and provide powerful representations for downstream tasks, most are non-streamable, limiting their use in real-time applications. We present FocalCodec-Stream, a hybrid codec based on focal modulation that compresses speech into a single binary codebook at 0.55 - 0.80 kbps with a theoretical latency of 80 ms. Our approach combines multi-stage causal distillation of WavLM with targeted architectural improvements, including a lightweight refiner module that enhances quality under latency constraints. Experiments show that FocalCodec-Stream outperforms existing streamable codecs at comparable bitrates, while preserving both semantic and acoustic information. The result is a favorable trade-off between reconstruction quality, downstream task performance, latency, and efficiency. Code and checkpoints will be released at https://github.com/lucadellalib/focalcodec.

FocalCodec-Stream: Codificação de Fala de Baixa Taxa de Bits em Tempo Real via Destilação Causal

FocalCodec-Stream: Streaming Low-Bitrate Speech Coding via Causal Distillation

Resumo

Support