FuseCodec: ニューラルコーデックのための意味的・文脈的融合と監督学習
FuseCodec: Semantic-Contextual Fusion and Supervision for Neural Codecs
September 14, 2025
著者: Md Mubtasim Ahasan, Rafat Hasan Khan, Tasnim Mohiuddin, Aman Chadha, Tariq Iqbal, M Ashraful Amin, Amin Ahsan Ali, Md Mofijul Islam, A K M Mahbubur Rahman
cs.AI
要旨
音声トークン化は離散的な表現を可能にし、音声言語モデリングを容易にします。しかし、既存のニューラルコーデックは低レベルの音響特徴を捉える一方で、人間の音声に内在する意味的・文脈的手がかりを見落としています。最近の研究では、自己教師あり音声モデルから意味的表現を導入したり、事前学習済み言語モデルから文脈的表現を取り入れたりしていますが、意味的表現と文脈的表現を整合させ統一する課題が残っています。本論文では、FuseCodecを紹介します。これは、強力なクロスモーダルアラインメントとグローバルに情報化された監視を通じて、音響的、意味的、文脈的表現を統一するものです。我々は3つの補完的な技術を提案します:(i)潜在表現融合(Latent Representation Fusion)では、意味的・文脈的特徴をエンコーダの潜在空間に直接統合し、堅牢で統一された表現学習を実現します。(ii)グローバル意味-文脈監視(Global Semantic-Contextual Supervision)では、グローバルにプールされブロードキャストされた表現で離散トークンを監視し、時間的一貫性とクロスモーダルアラインメントを強化します。(iii)時間的整合文脈監視(Temporally Aligned Contextual Supervision)では、局所ウィンドウ内で文脈と音声トークンを動的にマッチングさせ、細粒度のトークンレベル監視を強化します。さらに、FuseCodec-TTSを紹介し、ゼロショット音声合成への本手法の適用性を示します。実験的には、FuseCodecはLibriSpeechにおいて最先端の性能を達成し、EnCodec、SpeechTokenizer、DACを転写精度、知覚品質、明瞭度、話者類似性で上回りました。結果は、文脈的・意味的に導かれたトークン化が音声トークン化と下流タスクにおいて有効であることを示しています。コードと事前学習済みモデルはhttps://github.com/mubtasimahasan/FuseCodecで公開されています。
English
Speech tokenization enables discrete representation and facilitates speech
language modeling. However, existing neural codecs capture low-level acoustic
features, overlooking the semantic and contextual cues inherent to human
speech. While recent efforts introduced semantic representations from
self-supervised speech models or incorporated contextual representations from
pre-trained language models, challenges remain in aligning and unifying the
semantic and contextual representations. We introduce FuseCodec, which unifies
acoustic, semantic, and contextual representations through strong cross-modal
alignment and globally informed supervision. We propose three complementary
techniques: (i) Latent Representation Fusion, integrating semantic and
contextual features directly into the encoder latent space for robust and
unified representation learning; (ii) Global Semantic-Contextual Supervision,
supervising discrete tokens with globally pooled and broadcasted
representations to enhance temporal consistency and cross-modal alignment; and
(iii) Temporally Aligned Contextual Supervision, strengthening alignment by
dynamically matching contextual and speech tokens within a local window for
fine-grained token-level supervision. We further introduce FuseCodec-TTS,
demonstrating our methodology's applicability to zero-shot speech synthesis.
Empirically, FuseCodec achieves state-of-the-art performance in LibriSpeech,
surpassing EnCodec, SpeechTokenizer, and DAC in transcription accuracy,
perceptual quality, intelligibility, and speaker similarity. Results highlight
the effectiveness of contextually and semantically guided tokenization for
speech tokenization and downstream tasks. Code and pretrained models are
available at https://github.com/mubtasimahasan/FuseCodec.