FocalCodec-Stream: Codificação de Fala de Baixa Taxa de Bits em Tempo Real via Destilação Causal
FocalCodec-Stream: Streaming Low-Bitrate Speech Coding via Causal Distillation
September 19, 2025
Autores: Luca Della Libera, Cem Subakan, Mirco Ravanelli
cs.AI
Resumo
Codecs neurais de áudio são um componente fundamental dos pipelines modernos de geração de áudio. Embora os codecs recentes alcancem uma forte reconstrução em baixa taxa de bits e forneçam representações poderosas para tarefas subsequentes, a maioria não é transmissível, limitando seu uso em aplicações em tempo real. Apresentamos o FocalCodec-Stream, um codec híbrido baseado em modulação focal que comprime fala em um único codebook binário a 0,55 - 0,80 kbps com uma latência teórica de 80 ms. Nossa abordagem combina a destilação causal em múltiplos estágios do WavLM com melhorias arquitetônicas direcionadas, incluindo um módulo refinador leve que melhora a qualidade sob restrições de latência. Experimentos mostram que o FocalCodec-Stream supera os codecs transmissíveis existentes em taxas de bits comparáveis, preservando tanto a informação semântica quanto a acústica. O resultado é um equilíbrio favorável entre qualidade de reconstrução, desempenho em tarefas subsequentes, latência e eficiência. O código e os checkpoints serão disponibilizados em https://github.com/lucadellalib/focalcodec.
English
Neural audio codecs are a fundamental component of modern generative audio
pipelines. Although recent codecs achieve strong low-bitrate reconstruction and
provide powerful representations for downstream tasks, most are non-streamable,
limiting their use in real-time applications. We present FocalCodec-Stream, a
hybrid codec based on focal modulation that compresses speech into a single
binary codebook at 0.55 - 0.80 kbps with a theoretical latency of 80 ms. Our
approach combines multi-stage causal distillation of WavLM with targeted
architectural improvements, including a lightweight refiner module that
enhances quality under latency constraints. Experiments show that
FocalCodec-Stream outperforms existing streamable codecs at comparable
bitrates, while preserving both semantic and acoustic information. The result
is a favorable trade-off between reconstruction quality, downstream task
performance, latency, and efficiency. Code and checkpoints will be released at
https://github.com/lucadellalib/focalcodec.