FocalCodec-Stream: Потоковое кодирование речи с низким битрейтом через каузальное дистилляцию
FocalCodec-Stream: Streaming Low-Bitrate Speech Coding via Causal Distillation
September 19, 2025
Авторы: Luca Della Libera, Cem Subakan, Mirco Ravanelli
cs.AI
Аннотация
Нейронные аудиокодеки являются фундаментальным компонентом современных генеративных аудио-конвейеров. Хотя последние кодеки достигают высококачественной реконструкции при низких битрейтах и предоставляют мощные представления для последующих задач, большинство из них не поддерживают потоковую передачу, что ограничивает их использование в приложениях реального времени. Мы представляем FocalCodec-Stream, гибридный кодек на основе фокальной модуляции, который сжимает речь в единый бинарный кодек с битрейтом 0,55–0,80 кбит/с и теоретической задержкой 80 мс. Наш подход сочетает многоступенчатую каузальную дистилляцию WavLM с целенаправленными архитектурными улучшениями, включая легковесный модуль уточнения, который повышает качество при ограничениях на задержку. Эксперименты показывают, что FocalCodec-Stream превосходит существующие потоковые кодеки при сопоставимых битрейтах, сохраняя как семантическую, так и акустическую информацию. В результате достигается благоприятный баланс между качеством реконструкции, производительностью на последующих задачах, задержкой и эффективностью. Код и контрольные точки будут опубликованы по адресу https://github.com/lucadellalib/focalcodec.
English
Neural audio codecs are a fundamental component of modern generative audio
pipelines. Although recent codecs achieve strong low-bitrate reconstruction and
provide powerful representations for downstream tasks, most are non-streamable,
limiting their use in real-time applications. We present FocalCodec-Stream, a
hybrid codec based on focal modulation that compresses speech into a single
binary codebook at 0.55 - 0.80 kbps with a theoretical latency of 80 ms. Our
approach combines multi-stage causal distillation of WavLM with targeted
architectural improvements, including a lightweight refiner module that
enhances quality under latency constraints. Experiments show that
FocalCodec-Stream outperforms existing streamable codecs at comparable
bitrates, while preserving both semantic and acoustic information. The result
is a favorable trade-off between reconstruction quality, downstream task
performance, latency, and efficiency. Code and checkpoints will be released at
https://github.com/lucadellalib/focalcodec.