FuseCodec: Семантико-контекстное слияние и управление для нейронных кодеков
FuseCodec: Semantic-Contextual Fusion and Supervision for Neural Codecs
September 14, 2025
Авторы: Md Mubtasim Ahasan, Rafat Hasan Khan, Tasnim Mohiuddin, Aman Chadha, Tariq Iqbal, M Ashraful Amin, Amin Ahsan Ali, Md Mofijul Islam, A K M Mahbubur Rahman
cs.AI
Аннотация
Токенизация речи позволяет получить дискретное представление и облегчает моделирование языка речи. Однако существующие нейронные кодекы захватывают низкоуровневые акустические характеристики, упуская семантические и контекстные аспекты, присущие человеческой речи. Хотя недавние исследования представили семантические представления из моделей речи с самоконтролем или включили контекстные представления из предварительно обученных языковых моделей, проблемы остаются в согласовании и объединении семантических и контекстных представлений. Мы представляем FuseCodec, который объединяет акустические, семантические и контекстные представления через сильное кросс-модальное согласование и глобально информированный контроль. Мы предлагаем три взаимодополняющие техники: (i) Слияние латентных представлений, интегрирующее семантические и контекстные признаки непосредственно в латентное пространство кодера для устойчивого и унифицированного обучения представлений; (ii) Глобальный семантико-контекстный контроль, управляющий дискретными токенами с помощью глобально объединенных и транслируемых представлений для улучшения временной согласованности и кросс-модального выравнивания; и (iii) Временно согласованный контекстный контроль, усиливающий выравнивание путем динамического сопоставления контекстных и речевых токенов в пределах локального окна для детального контроля на уровне токенов. Мы также представляем FuseCodec-TTS, демонстрируя применимость нашей методологии к синтезу речи с нулевым обучением. Эмпирически FuseCodec достигает наилучших результатов на LibriSpeech, превосходя EnCodec, SpeechTokenizer и DAC по точности транскрипции, перцептивному качеству, разборчивости и сходству с голосом. Результаты подчеркивают эффективность контекстно и семантически направленной токенизации для задач токенизации речи и последующих применений. Код и предварительно обученные модели доступны по адресу https://github.com/mubtasimahasan/FuseCodec.
English
Speech tokenization enables discrete representation and facilitates speech
language modeling. However, existing neural codecs capture low-level acoustic
features, overlooking the semantic and contextual cues inherent to human
speech. While recent efforts introduced semantic representations from
self-supervised speech models or incorporated contextual representations from
pre-trained language models, challenges remain in aligning and unifying the
semantic and contextual representations. We introduce FuseCodec, which unifies
acoustic, semantic, and contextual representations through strong cross-modal
alignment and globally informed supervision. We propose three complementary
techniques: (i) Latent Representation Fusion, integrating semantic and
contextual features directly into the encoder latent space for robust and
unified representation learning; (ii) Global Semantic-Contextual Supervision,
supervising discrete tokens with globally pooled and broadcasted
representations to enhance temporal consistency and cross-modal alignment; and
(iii) Temporally Aligned Contextual Supervision, strengthening alignment by
dynamically matching contextual and speech tokens within a local window for
fine-grained token-level supervision. We further introduce FuseCodec-TTS,
demonstrating our methodology's applicability to zero-shot speech synthesis.
Empirically, FuseCodec achieves state-of-the-art performance in LibriSpeech,
surpassing EnCodec, SpeechTokenizer, and DAC in transcription accuracy,
perceptual quality, intelligibility, and speaker similarity. Results highlight
the effectiveness of contextually and semantically guided tokenization for
speech tokenization and downstream tasks. Code and pretrained models are
available at https://github.com/mubtasimahasan/FuseCodec.