ChatPaper.aiChatPaper

FuseCodec: 신경 코덱을 위한 의미론적-문맥적 융합 및 지도 학습

FuseCodec: Semantic-Contextual Fusion and Supervision for Neural Codecs

September 14, 2025
저자: Md Mubtasim Ahasan, Rafat Hasan Khan, Tasnim Mohiuddin, Aman Chadha, Tariq Iqbal, M Ashraful Amin, Amin Ahsan Ali, Md Mofijul Islam, A K M Mahbubur Rahman
cs.AI

초록

음성 토큰화는 이산적 표현을 가능하게 하고 음성 언어 모델링을 용이하게 합니다. 그러나 기존의 신경 코덱은 저수준의 음향적 특징만을 포착하여 인간 음성에 내재된 의미론적 및 맥락적 단서를 간과해 왔습니다. 최근에는 자기 지도 학습 음성 모델에서 의미론적 표현을 도입하거나 사전 학습된 언어 모델에서 맥락적 표현을 통합하려는 시도가 있었지만, 의미론적 및 맥락적 표현을 정렬하고 통합하는 데는 여전히 과제가 남아 있습니다. 우리는 강력한 교차 모달 정렬과 전역적으로 정보화된 지도를 통해 음향적, 의미론적, 맥락적 표현을 통합하는 FuseCodec을 소개합니다. 우리는 세 가지 상호 보완적인 기술을 제안합니다: (i) 잠재 표현 융합(Latent Representation Fusion), 의미론적 및 맥락적 특징을 인코더 잠재 공간에 직접 통합하여 견고하고 통합된 표현 학습을 가능하게 함; (ii) 전역 의미론적-맥락적 지도(Global Semantic-Contextual Supervision), 전역적으로 풀링 및 브로드캐스트된 표현으로 이산 토큰을 지도하여 시간적 일관성과 교차 모달 정렬을 강화; (iii) 시간적 정렬 맥락적 지도(Temporally Aligned Contextual Supervision), 로컬 윈도우 내에서 맥락적 및 음성 토큰을 동적으로 매칭하여 세밀한 토큰 수준의 지도를 강화. 또한, 우리는 제로샷 음성 합성에 대한 우리의 방법론의 적용 가능성을 입증하는 FuseCodec-TTS를 소개합니다. 실험적으로, FuseCodec은 LibriSpeech에서 최신 기술을 능가하며, EnCodec, SpeechTokenizer, DAC를 전사 정확도, 지각적 품질, 명료성, 화자 유사성에서 능가합니다. 결과는 음성 토큰화 및 하위 작업을 위한 맥락적 및 의미론적 지도 토큰화의 효과를 강조합니다. 코드와 사전 학습된 모델은 https://github.com/mubtasimahasan/FuseCodec에서 이용 가능합니다.
English
Speech tokenization enables discrete representation and facilitates speech language modeling. However, existing neural codecs capture low-level acoustic features, overlooking the semantic and contextual cues inherent to human speech. While recent efforts introduced semantic representations from self-supervised speech models or incorporated contextual representations from pre-trained language models, challenges remain in aligning and unifying the semantic and contextual representations. We introduce FuseCodec, which unifies acoustic, semantic, and contextual representations through strong cross-modal alignment and globally informed supervision. We propose three complementary techniques: (i) Latent Representation Fusion, integrating semantic and contextual features directly into the encoder latent space for robust and unified representation learning; (ii) Global Semantic-Contextual Supervision, supervising discrete tokens with globally pooled and broadcasted representations to enhance temporal consistency and cross-modal alignment; and (iii) Temporally Aligned Contextual Supervision, strengthening alignment by dynamically matching contextual and speech tokens within a local window for fine-grained token-level supervision. We further introduce FuseCodec-TTS, demonstrating our methodology's applicability to zero-shot speech synthesis. Empirically, FuseCodec achieves state-of-the-art performance in LibriSpeech, surpassing EnCodec, SpeechTokenizer, and DAC in transcription accuracy, perceptual quality, intelligibility, and speaker similarity. Results highlight the effectiveness of contextually and semantically guided tokenization for speech tokenization and downstream tasks. Code and pretrained models are available at https://github.com/mubtasimahasan/FuseCodec.
PDF32September 17, 2025