ChatPaper.aiChatPaper

FuseCodec: Semantisch-kontextuelle Fusion und Überwachung für neuronale Codecs

FuseCodec: Semantic-Contextual Fusion and Supervision for Neural Codecs

September 14, 2025
papers.authors: Md Mubtasim Ahasan, Rafat Hasan Khan, Tasnim Mohiuddin, Aman Chadha, Tariq Iqbal, M Ashraful Amin, Amin Ahsan Ali, Md Mofijul Islam, A K M Mahbubur Rahman
cs.AI

papers.abstract

Die Tokenisierung von Sprache ermöglicht eine diskrete Darstellung und erleichtert die Modellierung von Sprache. Allerdings erfassen bestehende neuronale Codecs nur akustische Merkmale auf niedriger Ebene und übersehen dabei die semantischen und kontextuellen Hinweise, die der menschlichen Sprache innewohnen. Während neuere Ansätze semantische Darstellungen aus selbstüberwachten Sprachmodellen einführten oder kontextuelle Darstellungen aus vortrainierten Sprachmodellen integrierten, bestehen weiterhin Herausforderungen bei der Ausrichtung und Vereinheitlichung der semantischen und kontextuellen Darstellungen. Wir stellen FuseCodec vor, das akustische, semantische und kontextuelle Darstellungen durch starke cross-modale Ausrichtung und global informierte Überwachung vereint. Wir schlagen drei komplementäre Techniken vor: (i) Latent Representation Fusion, die semantische und kontextuelle Merkmale direkt in den latenten Raum des Encoders integriert, um robustes und vereinheitlichtes Repräsentationslernen zu ermöglichen; (ii) Global Semantic-Contextual Supervision, die diskrete Token mit global gepoolten und verbreiteten Darstellungen überwacht, um zeitliche Konsistenz und cross-modale Ausrichtung zu verbessern; und (iii) Temporally Aligned Contextual Supervision, die die Ausrichtung durch dynamische Abstimmung von kontextuellen und Sprach-Token innerhalb eines lokalen Fensters für feinkörnige Token-Level-Überwachung stärkt. Wir führen außerdem FuseCodec-TTS ein, das die Anwendbarkeit unserer Methodik auf die Zero-Shot-Sprachsynthese demonstriert. Empirisch erreicht FuseCodec Spitzenleistungen in LibriSpeech und übertrifft EnCodec, SpeechTokenizer und DAC in Bezug auf Transkriptionsgenauigkeit, wahrgenommene Qualität, Verständlichkeit und Sprecherähnlichkeit. Die Ergebnisse unterstreichen die Wirksamkeit von kontextuell und semantisch geleiteter Tokenisierung für die Sprach-Tokenisierung und nachgelagerte Aufgaben. Code und vortrainierte Modelle sind unter https://github.com/mubtasimahasan/FuseCodec verfügbar.
English
Speech tokenization enables discrete representation and facilitates speech language modeling. However, existing neural codecs capture low-level acoustic features, overlooking the semantic and contextual cues inherent to human speech. While recent efforts introduced semantic representations from self-supervised speech models or incorporated contextual representations from pre-trained language models, challenges remain in aligning and unifying the semantic and contextual representations. We introduce FuseCodec, which unifies acoustic, semantic, and contextual representations through strong cross-modal alignment and globally informed supervision. We propose three complementary techniques: (i) Latent Representation Fusion, integrating semantic and contextual features directly into the encoder latent space for robust and unified representation learning; (ii) Global Semantic-Contextual Supervision, supervising discrete tokens with globally pooled and broadcasted representations to enhance temporal consistency and cross-modal alignment; and (iii) Temporally Aligned Contextual Supervision, strengthening alignment by dynamically matching contextual and speech tokens within a local window for fine-grained token-level supervision. We further introduce FuseCodec-TTS, demonstrating our methodology's applicability to zero-shot speech synthesis. Empirically, FuseCodec achieves state-of-the-art performance in LibriSpeech, surpassing EnCodec, SpeechTokenizer, and DAC in transcription accuracy, perceptual quality, intelligibility, and speaker similarity. Results highlight the effectiveness of contextually and semantically guided tokenization for speech tokenization and downstream tasks. Code and pretrained models are available at https://github.com/mubtasimahasan/FuseCodec.
PDF32September 17, 2025