TaDiCodec: 음성 언어 모델링을 위한 텍스트 인식 확산 음성 토크나이저
TaDiCodec: Text-aware Diffusion Speech Tokenizer for Speech Language Modeling
August 22, 2025
저자: Yuancheng Wang, Dekun Chen, Xueyao Zhang, Junan Zhang, Jiaqi Li, Zhizheng Wu
cs.AI
초록
음성 토크나이저는 음성 언어 모델의 기초 구성 요소로 작동하지만, 현재의 설계는 여러 가지 한계를 보입니다. 이러한 한계에는 1) 다층 잔차 벡터 양자화 구조 또는 높은 프레임 레이트에 대한 의존성, 2) 의미론적 정제를 위한 보조 사전 훈련 모델의 필요성, 3) 복잡한 두 단계 훈련 프로세스의 요구 사항 등이 포함됩니다. 본 연구에서는 이러한 문제를 극복하기 위해 새로운 접근 방식인 Text-aware Diffusion Transformer Speech Codec(TaDiCodec)를 소개합니다. TaDiCodec은 확산 오토인코더를 통해 양자화 및 재구성을 위한 종단 간 최적화를 수행하며, 확산 디코더에 텍스트 지침을 통합하여 재구성 품질을 향상시키고 최적의 압축을 달성합니다. TaDiCodec은 24kHz 음성에 대해 단일 레이어 코드북을 사용하여 6.25Hz의 극도로 낮은 프레임 레이트와 0.0875kbps의 비트레이트를 달성하면서도, 단어 오류율(WER), 화자 유사성(SIM), 음성 품질(UTMOS)과 같은 중요한 음성 생성 평가 지표에서 우수한 성능을 유지합니다. 특히, TaDiCodec은 단일 단계의 종단 간 훈련 패러다임을 채택하며, 보조 사전 훈련 모델의 필요성을 없앱니다. 또한, TaDiCodec의 호환성을 자동회귀 모델링과 마스크 생성 모델링을 기반으로 하는 언어 모델 기반 제로샷 텍스트-투-스피치에서 검증하여, 음성 언어 모델링에 대한 효과성과 효율성, 그리고 상당히 작은 재구성-생성 간극을 입증합니다. 우리는 코드와 모델 체크포인트를 공개할 예정입니다. 오디오 샘플은 https://tadicodec.github.io/에서 확인할 수 있으며, 코드와 모델 체크포인트는 https://github.com/HeCheng0625/Diffusion-Speech-Tokenizer에서 공개됩니다.
English
Speech tokenizers serve as foundational components for speech language
models, yet current designs exhibit several limitations, including: 1)
dependence on multi-layer residual vector quantization structures or high frame
rates, 2) reliance on auxiliary pre-trained models for semantic distillation,
and 3) requirements for complex two-stage training processes. In this work, we
introduce the Text-aware Diffusion Transformer Speech Codec (TaDiCodec), a
novel approach designed to overcome these challenges. TaDiCodec employs
end-to-end optimization for quantization and reconstruction through a diffusion
autoencoder, while integrating text guidance into the diffusion decoder to
enhance reconstruction quality and achieve optimal compression. TaDiCodec
achieves an extremely low frame rate of 6.25 Hz and a corresponding bitrate of
0.0875 kbps with a single-layer codebook for 24 kHz speech, while maintaining
superior performance on critical speech generation evaluation metrics such as
Word Error Rate (WER), speaker similarity (SIM), and speech quality (UTMOS).
Notably, TaDiCodec employs a single-stage, end-to-end training paradigm, and
obviating the need for auxiliary pre-trained models. We also validate the
compatibility of TaDiCodec in language model based zero-shot text-to-speech
with both autoregressive modeling and masked generative modeling, demonstrating
its effectiveness and efficiency for speech language modeling, as well as a
significantly small reconstruction-generation gap. We will open source our code
and model checkpoints. Audio samples are are available at
https:/tadicodec.github.io/. We release code and model checkpoints at
https:/github.com/HeCheng0625/Diffusion-Speech-Tokenizer.