FuseCodec: Fusione Semantico-Contestuale e Supervisione per Codec Neurali
FuseCodec: Semantic-Contextual Fusion and Supervision for Neural Codecs
September 14, 2025
Autori: Md Mubtasim Ahasan, Rafat Hasan Khan, Tasnim Mohiuddin, Aman Chadha, Tariq Iqbal, M Ashraful Amin, Amin Ahsan Ali, Md Mofijul Islam, A K M Mahbubur Rahman
cs.AI
Abstract
La tokenizzazione del parlato consente una rappresentazione discreta e facilita la modellazione del linguaggio vocale. Tuttavia, i codec neurali esistenti catturano caratteristiche acustiche di basso livello, trascurando gli indizi semantici e contestuali intrinseci al parlato umano. Sebbene recenti sforzi abbiano introdotto rappresentazioni semantiche da modelli di parlato auto-supervisionati o incorporato rappresentazioni contestuali da modelli linguistici pre-addestrati, rimangono sfide nell'allineamento e nell'unificazione delle rappresentazioni semantiche e contestuali. Introduciamo FuseCodec, che unisce rappresentazioni acustiche, semantiche e contestuali attraverso un forte allineamento cross-modale e una supervisione globalmente informata. Proponiamo tre tecniche complementari: (i) Fusione delle Rappresentazioni Latenti, integrando direttamente le caratteristiche semantiche e contestuali nello spazio latente dell'encoder per un apprendimento robusto e unificato delle rappresentazioni; (ii) Supervisione Globale Semantico-Contestuale, supervisionando i token discreti con rappresentazioni aggregate globalmente e trasmesse per migliorare la coerenza temporale e l'allineamento cross-modale; e (iii) Supervisione Contestuale Temporalmente Allineata, rafforzando l'allineamento abbinando dinamicamente i token contestuali e vocali all'interno di una finestra locale per una supervisione fine a livello di token. Introduciamo inoltre FuseCodec-TTS, dimostrando l'applicabilità della nostra metodologia alla sintesi vocale zero-shot. Empiricamente, FuseCodec raggiunge prestazioni all'avanguardia su LibriSpeech, superando EnCodec, SpeechTokenizer e DAC in accuratezza di trascrizione, qualità percettiva, intelligibilità e somiglianza del parlante. I risultati evidenziano l'efficacia della tokenizzazione guidata contestualmente e semanticamente per la tokenizzazione del parlato e per i task downstream. Codice e modelli pre-addestrati sono disponibili su https://github.com/mubtasimahasan/FuseCodec.
English
Speech tokenization enables discrete representation and facilitates speech
language modeling. However, existing neural codecs capture low-level acoustic
features, overlooking the semantic and contextual cues inherent to human
speech. While recent efforts introduced semantic representations from
self-supervised speech models or incorporated contextual representations from
pre-trained language models, challenges remain in aligning and unifying the
semantic and contextual representations. We introduce FuseCodec, which unifies
acoustic, semantic, and contextual representations through strong cross-modal
alignment and globally informed supervision. We propose three complementary
techniques: (i) Latent Representation Fusion, integrating semantic and
contextual features directly into the encoder latent space for robust and
unified representation learning; (ii) Global Semantic-Contextual Supervision,
supervising discrete tokens with globally pooled and broadcasted
representations to enhance temporal consistency and cross-modal alignment; and
(iii) Temporally Aligned Contextual Supervision, strengthening alignment by
dynamically matching contextual and speech tokens within a local window for
fine-grained token-level supervision. We further introduce FuseCodec-TTS,
demonstrating our methodology's applicability to zero-shot speech synthesis.
Empirically, FuseCodec achieves state-of-the-art performance in LibriSpeech,
surpassing EnCodec, SpeechTokenizer, and DAC in transcription accuracy,
perceptual quality, intelligibility, and speaker similarity. Results highlight
the effectiveness of contextually and semantically guided tokenization for
speech tokenization and downstream tasks. Code and pretrained models are
available at https://github.com/mubtasimahasan/FuseCodec.