FocalCodec: Кодирование речи с низким битрейтом с помощью сетей фокусного модуляции
FocalCodec: Low-Bitrate Speech Coding via Focal Modulation Networks
February 6, 2025
Авторы: Luca Della Libera, Francesco Paissan, Cem Subakan, Mirco Ravanelli
cs.AI
Аннотация
Большие языковые модели революционизировали обработку естественного языка через предварительное обучение без учителя на огромных наборах данных. Вдохновленные этим успехом, исследователи исследовали возможность адаптации этих методов к речи путем дискретизации непрерывного аудио на токены с использованием нейронных аудио кодеков. Однако существующие подходы сталкиваются с ограничениями, включая высокие битрейты, потерю либо семантической, либо акустической информации, и использование множественных кодовых книг при попытке уловить оба аспекта, что увеличивает архитектурную сложность для последующих задач. Для решения этих проблем мы представляем FocalCodec, эффективный кодек с низким битрейтом на основе фокусной модуляции, который использует одну двоичную кодовую книгу для сжатия речи между 0,16 и 0,65 кбит/с. FocalCodec обеспечивает конкурентоспособное качество в ресинтезе речи и конвертации голоса при более низких битрейтах, чем у текущего передового метода, эффективно обрабатывая многоязычную речь и шумные среды. Оценка на последующих задачах показывает, что FocalCodec успешно сохраняет достаточное количество семантической и акустической информации, а также хорошо подходит для генеративного моделирования. Демонстрационные образцы, код и контрольные точки доступны по адресу https://lucadellalib.github.io/focalcodec-web/.
English
Large language models have revolutionized natural language processing through
self-supervised pretraining on massive datasets. Inspired by this success,
researchers have explored adapting these methods to speech by discretizing
continuous audio into tokens using neural audio codecs. However, existing
approaches face limitations, including high bitrates, the loss of either
semantic or acoustic information, and the reliance on multi-codebook designs
when trying to capture both, which increases architectural complexity for
downstream tasks. To address these challenges, we introduce FocalCodec, an
efficient low-bitrate codec based on focal modulation that utilizes a single
binary codebook to compress speech between 0.16 and 0.65 kbps. FocalCodec
delivers competitive performance in speech resynthesis and voice conversion at
lower bitrates than the current state-of-the-art, while effectively handling
multilingual speech and noisy environments. Evaluation on downstream tasks
shows that FocalCodec successfully preserves sufficient semantic and acoustic
information, while also being well-suited for generative modeling. Demo
samples, code and checkpoints are available at
https://lucadellalib.github.io/focalcodec-web/.Summary
AI-Generated Summary