TaDiCodec: Tokenizzatore vocale basato su diffusione con consapevolezza testuale per la modellazione del linguaggio vocale
TaDiCodec: Text-aware Diffusion Speech Tokenizer for Speech Language Modeling
August 22, 2025
Autori: Yuancheng Wang, Dekun Chen, Xueyao Zhang, Junan Zhang, Jiaqi Li, Zhizheng Wu
cs.AI
Abstract
I tokenizzatori vocali rappresentano componenti fondamentali per i modelli linguistici vocali, tuttavia i design attuali presentano diverse limitazioni, tra cui: 1) dipendenza da strutture di quantizzazione vettoriale residua multi-strato o da alti frame rate, 2) affidamento a modelli pre-addestrati ausiliari per la distillazione semantica, e 3) necessità di complessi processi di addestramento in due fasi. In questo lavoro, introduciamo il Text-aware Diffusion Transformer Speech Codec (TaDiCodec), un approccio innovativo progettato per superare queste sfide. TaDiCodec utilizza un'ottimizzazione end-to-end per la quantizzazione e la ricostruzione attraverso un autoencoder diffusivo, integrando al contempo una guida testuale nel decoder diffusivo per migliorare la qualità della ricostruzione e ottenere una compressione ottimale. TaDiCodec raggiunge un frame rate estremamente basso di 6,25 Hz e un bitrate corrispondente di 0,0875 kbps con un codebook a singolo strato per audio a 24 kHz, mantenendo prestazioni superiori su metriche critiche di valutazione della generazione vocale come il Word Error Rate (WER), la similarità del parlante (SIM) e la qualità del parlato (UTMOS). È importante notare che TaDiCodec impiega un paradigma di addestramento a singola fase e end-to-end, eliminando la necessità di modelli pre-addestrati ausiliari. Validiamo inoltre la compatibilità di TaDiCodec nella sintesi vocale zero-shot basata su modelli linguistici, sia con modellazione autoregressiva che con modellazione generativa mascherata, dimostrandone l'efficacia e l'efficienza per la modellazione linguistica vocale, nonché un gap di ricostruzione-generazione significativamente ridotto. Rilasciamo il nostro codice e i checkpoint del modello. Campioni audio sono disponibili su https://tadicodec.github.io/. Il codice e i checkpoint del modello sono rilasciati su https://github.com/HeCheng0625/Diffusion-Speech-Tokenizer.
English
Speech tokenizers serve as foundational components for speech language
models, yet current designs exhibit several limitations, including: 1)
dependence on multi-layer residual vector quantization structures or high frame
rates, 2) reliance on auxiliary pre-trained models for semantic distillation,
and 3) requirements for complex two-stage training processes. In this work, we
introduce the Text-aware Diffusion Transformer Speech Codec (TaDiCodec), a
novel approach designed to overcome these challenges. TaDiCodec employs
end-to-end optimization for quantization and reconstruction through a diffusion
autoencoder, while integrating text guidance into the diffusion decoder to
enhance reconstruction quality and achieve optimal compression. TaDiCodec
achieves an extremely low frame rate of 6.25 Hz and a corresponding bitrate of
0.0875 kbps with a single-layer codebook for 24 kHz speech, while maintaining
superior performance on critical speech generation evaluation metrics such as
Word Error Rate (WER), speaker similarity (SIM), and speech quality (UTMOS).
Notably, TaDiCodec employs a single-stage, end-to-end training paradigm, and
obviating the need for auxiliary pre-trained models. We also validate the
compatibility of TaDiCodec in language model based zero-shot text-to-speech
with both autoregressive modeling and masked generative modeling, demonstrating
its effectiveness and efficiency for speech language modeling, as well as a
significantly small reconstruction-generation gap. We will open source our code
and model checkpoints. Audio samples are are available at
https:/tadicodec.github.io/. We release code and model checkpoints at
https:/github.com/HeCheng0625/Diffusion-Speech-Tokenizer.