FuseCodec: Fusão e Supervisão Semântico-Contextual para Codecs Neurais
FuseCodec: Semantic-Contextual Fusion and Supervision for Neural Codecs
September 14, 2025
Autores: Md Mubtasim Ahasan, Rafat Hasan Khan, Tasnim Mohiuddin, Aman Chadha, Tariq Iqbal, M Ashraful Amin, Amin Ahsan Ali, Md Mofijul Islam, A K M Mahbubur Rahman
cs.AI
Resumo
A tokenização de fala permite a representação discreta e facilita a modelagem de linguagem de fala. No entanto, os codecs neurais existentes capturam características acústicas de baixo nível, negligenciando as pistas semânticas e contextuais inerentes à fala humana. Embora esforços recentes tenham introduzido representações semânticas a partir de modelos de fala auto-supervisionados ou incorporado representações contextuais de modelos de linguagem pré-treinados, os desafios permanecem no alinhamento e unificação das representações semânticas e contextuais. Apresentamos o FuseCodec, que unifica representações acústicas, semânticas e contextuais por meio de um forte alinhamento multimodal e supervisão globalmente informada. Propomos três técnicas complementares: (i) Fusão de Representação Latente, integrando características semânticas e contextuais diretamente no espaço latente do codificador para um aprendizado de representação robusto e unificado; (ii) Supervisão Global Semântico-Contextual, supervisionando tokens discretos com representações agrupadas e transmitidas globalmente para melhorar a consistência temporal e o alinhamento multimodal; e (iii) Supervisão Contextual Temporalmente Alinhada, fortalecendo o alinhamento ao corresponder dinamicamente tokens contextuais e de fala dentro de uma janela local para uma supervisão refinada em nível de token. Além disso, introduzimos o FuseCodec-TTS, demonstrando a aplicabilidade de nossa metodologia na síntese de fala zero-shot. Empiricamente, o FuseCodec alcança desempenho de ponta no LibriSpeech, superando EnCodec, SpeechTokenizer e DAC em precisão de transcrição, qualidade perceptual, inteligibilidade e similaridade do falante. Os resultados destacam a eficácia da tokenização de fala guiada contextual e semanticamente para tarefas de tokenização e aplicações subsequentes. Código e modelos pré-treinados estão disponíveis em https://github.com/mubtasimahasan/FuseCodec.
English
Speech tokenization enables discrete representation and facilitates speech
language modeling. However, existing neural codecs capture low-level acoustic
features, overlooking the semantic and contextual cues inherent to human
speech. While recent efforts introduced semantic representations from
self-supervised speech models or incorporated contextual representations from
pre-trained language models, challenges remain in aligning and unifying the
semantic and contextual representations. We introduce FuseCodec, which unifies
acoustic, semantic, and contextual representations through strong cross-modal
alignment and globally informed supervision. We propose three complementary
techniques: (i) Latent Representation Fusion, integrating semantic and
contextual features directly into the encoder latent space for robust and
unified representation learning; (ii) Global Semantic-Contextual Supervision,
supervising discrete tokens with globally pooled and broadcasted
representations to enhance temporal consistency and cross-modal alignment; and
(iii) Temporally Aligned Contextual Supervision, strengthening alignment by
dynamically matching contextual and speech tokens within a local window for
fine-grained token-level supervision. We further introduce FuseCodec-TTS,
demonstrating our methodology's applicability to zero-shot speech synthesis.
Empirically, FuseCodec achieves state-of-the-art performance in LibriSpeech,
surpassing EnCodec, SpeechTokenizer, and DAC in transcription accuracy,
perceptual quality, intelligibility, and speaker similarity. Results highlight
the effectiveness of contextually and semantically guided tokenization for
speech tokenization and downstream tasks. Code and pretrained models are
available at https://github.com/mubtasimahasan/FuseCodec.