ChatPaper.aiChatPaper

FuseCodec : Fusion sémantique-contextuelle et supervision pour les codecs neuronaux

FuseCodec: Semantic-Contextual Fusion and Supervision for Neural Codecs

September 14, 2025
papers.authors: Md Mubtasim Ahasan, Rafat Hasan Khan, Tasnim Mohiuddin, Aman Chadha, Tariq Iqbal, M Ashraful Amin, Amin Ahsan Ali, Md Mofijul Islam, A K M Mahbubur Rahman
cs.AI

papers.abstract

La tokenisation de la parole permet une représentation discrète et facilite la modélisation du langage parlé. Cependant, les codecs neuronaux existants capturent des caractéristiques acoustiques de bas niveau, négligeant les indices sémantiques et contextuels inhérents à la parole humaine. Bien que des efforts récents aient introduit des représentations sémantiques issues de modèles de parole auto-supervisés ou incorporé des représentations contextuelles provenant de modèles de langage pré-entraînés, des défis subsistent dans l'alignement et l'unification des représentations sémantiques et contextuelles. Nous présentons FuseCodec, qui unifie les représentations acoustiques, sémantiques et contextuelles grâce à un alignement intermodal robuste et une supervision globalement informée. Nous proposons trois techniques complémentaires : (i) la Fusion des Représentations Latentes, intégrant directement les caractéristiques sémantiques et contextuelles dans l'espace latent de l'encodeur pour un apprentissage robuste et unifié des représentations ; (ii) la Supervision Globale Sémantique-Contextuelle, supervisant les tokens discrets avec des représentations globalement agrégées et diffusées pour améliorer la cohérence temporelle et l'alignement intermodal ; et (iii) la Supervision Contextuelle Temporellement Alignée, renforçant l'alignement en faisant correspondre dynamiquement les tokens contextuels et de parole dans une fenêtre locale pour une supervision fine au niveau des tokens. Nous introduisons également FuseCodec-TTS, démontrant l'applicabilité de notre méthodologie à la synthèse de parole zero-shot. Empiriquement, FuseCodec atteint des performances de pointe sur LibriSpeech, surpassant EnCodec, SpeechTokenizer et DAC en termes de précision de transcription, qualité perceptuelle, intelligibilité et similarité du locuteur. Les résultats mettent en évidence l'efficacité d'une tokenisation guidée contextuellement et sémantiquement pour la tokenisation de la parole et les tâches en aval. Le code et les modèles pré-entraînés sont disponibles à l'adresse https://github.com/mubtasimahasan/FuseCodec.
English
Speech tokenization enables discrete representation and facilitates speech language modeling. However, existing neural codecs capture low-level acoustic features, overlooking the semantic and contextual cues inherent to human speech. While recent efforts introduced semantic representations from self-supervised speech models or incorporated contextual representations from pre-trained language models, challenges remain in aligning and unifying the semantic and contextual representations. We introduce FuseCodec, which unifies acoustic, semantic, and contextual representations through strong cross-modal alignment and globally informed supervision. We propose three complementary techniques: (i) Latent Representation Fusion, integrating semantic and contextual features directly into the encoder latent space for robust and unified representation learning; (ii) Global Semantic-Contextual Supervision, supervising discrete tokens with globally pooled and broadcasted representations to enhance temporal consistency and cross-modal alignment; and (iii) Temporally Aligned Contextual Supervision, strengthening alignment by dynamically matching contextual and speech tokens within a local window for fine-grained token-level supervision. We further introduce FuseCodec-TTS, demonstrating our methodology's applicability to zero-shot speech synthesis. Empirically, FuseCodec achieves state-of-the-art performance in LibriSpeech, surpassing EnCodec, SpeechTokenizer, and DAC in transcription accuracy, perceptual quality, intelligibility, and speaker similarity. Results highlight the effectiveness of contextually and semantically guided tokenization for speech tokenization and downstream tasks. Code and pretrained models are available at https://github.com/mubtasimahasan/FuseCodec.
PDF32September 17, 2025