FuseCodec: Fusión Semántico-Contextual y Supervisión para Codecs Neuronales
FuseCodec: Semantic-Contextual Fusion and Supervision for Neural Codecs
September 14, 2025
Autores: Md Mubtasim Ahasan, Rafat Hasan Khan, Tasnim Mohiuddin, Aman Chadha, Tariq Iqbal, M Ashraful Amin, Amin Ahsan Ali, Md Mofijul Islam, A K M Mahbubur Rahman
cs.AI
Resumen
La tokenización del habla permite una representación discreta y facilita el modelado del lenguaje hablado. Sin embargo, los códecs neuronales existentes capturan características acústicas de bajo nivel, pasando por alto las señales semánticas y contextuales inherentes al habla humana. Aunque esfuerzos recientes han introducido representaciones semánticas a partir de modelos de habla auto-supervisados o han incorporado representaciones contextuales de modelos de lenguaje preentrenados, persisten desafíos en la alineación y unificación de las representaciones semánticas y contextuales. Presentamos FuseCodec, que unifica representaciones acústicas, semánticas y contextuales mediante una fuerte alineación multimodal y supervisión globalmente informada. Proponemos tres técnicas complementarias: (i) Fusión de Representaciones Latentes, integrando características semánticas y contextuales directamente en el espacio latente del codificador para un aprendizaje robusto y unificado de representaciones; (ii) Supervisión Global Semántico-Contextual, supervisando tokens discretos con representaciones agrupadas y difundidas globalmente para mejorar la consistencia temporal y la alineación multimodal; y (iii) Supervisión Contextual Temporalmente Alineada, fortaleciendo la alineación mediante la coincidencia dinámica de tokens contextuales y de habla dentro de una ventana local para una supervisión detallada a nivel de token. Además, presentamos FuseCodec-TTS, demostrando la aplicabilidad de nuestra metodología en la síntesis de habla zero-shot. Empíricamente, FuseCodec logra un rendimiento de vanguardia en LibriSpeech, superando a EnCodec, SpeechTokenizer y DAC en precisión de transcripción, calidad perceptual, inteligibilidad y similitud de hablante. Los resultados destacan la efectividad de la tokenización guiada contextual y semánticamente para la tokenización del habla y tareas posteriores. El código y los modelos preentrenados están disponibles en https://github.com/mubtasimahasan/FuseCodec.
English
Speech tokenization enables discrete representation and facilitates speech
language modeling. However, existing neural codecs capture low-level acoustic
features, overlooking the semantic and contextual cues inherent to human
speech. While recent efforts introduced semantic representations from
self-supervised speech models or incorporated contextual representations from
pre-trained language models, challenges remain in aligning and unifying the
semantic and contextual representations. We introduce FuseCodec, which unifies
acoustic, semantic, and contextual representations through strong cross-modal
alignment and globally informed supervision. We propose three complementary
techniques: (i) Latent Representation Fusion, integrating semantic and
contextual features directly into the encoder latent space for robust and
unified representation learning; (ii) Global Semantic-Contextual Supervision,
supervising discrete tokens with globally pooled and broadcasted
representations to enhance temporal consistency and cross-modal alignment; and
(iii) Temporally Aligned Contextual Supervision, strengthening alignment by
dynamically matching contextual and speech tokens within a local window for
fine-grained token-level supervision. We further introduce FuseCodec-TTS,
demonstrating our methodology's applicability to zero-shot speech synthesis.
Empirically, FuseCodec achieves state-of-the-art performance in LibriSpeech,
surpassing EnCodec, SpeechTokenizer, and DAC in transcription accuracy,
perceptual quality, intelligibility, and speaker similarity. Results highlight
the effectiveness of contextually and semantically guided tokenization for
speech tokenization and downstream tasks. Code and pretrained models are
available at https://github.com/mubtasimahasan/FuseCodec.