ChatPaper.aiChatPaper

TaDiCodec: Tokenizzatore vocale basato su diffusione con consapevolezza testuale per la modellazione del linguaggio vocale

TaDiCodec: Text-aware Diffusion Speech Tokenizer for Speech Language Modeling

August 22, 2025
Autori: Yuancheng Wang, Dekun Chen, Xueyao Zhang, Junan Zhang, Jiaqi Li, Zhizheng Wu
cs.AI

Abstract

I tokenizzatori vocali rappresentano componenti fondamentali per i modelli linguistici vocali, tuttavia i design attuali presentano diverse limitazioni, tra cui: 1) dipendenza da strutture di quantizzazione vettoriale residua multi-strato o da alti frame rate, 2) affidamento a modelli pre-addestrati ausiliari per la distillazione semantica, e 3) necessità di complessi processi di addestramento in due fasi. In questo lavoro, introduciamo il Text-aware Diffusion Transformer Speech Codec (TaDiCodec), un approccio innovativo progettato per superare queste sfide. TaDiCodec utilizza un'ottimizzazione end-to-end per la quantizzazione e la ricostruzione attraverso un autoencoder diffusivo, integrando al contempo una guida testuale nel decoder diffusivo per migliorare la qualità della ricostruzione e ottenere una compressione ottimale. TaDiCodec raggiunge un frame rate estremamente basso di 6,25 Hz e un bitrate corrispondente di 0,0875 kbps con un codebook a singolo strato per audio a 24 kHz, mantenendo prestazioni superiori su metriche critiche di valutazione della generazione vocale come il Word Error Rate (WER), la similarità del parlante (SIM) e la qualità del parlato (UTMOS). È importante notare che TaDiCodec impiega un paradigma di addestramento a singola fase e end-to-end, eliminando la necessità di modelli pre-addestrati ausiliari. Validiamo inoltre la compatibilità di TaDiCodec nella sintesi vocale zero-shot basata su modelli linguistici, sia con modellazione autoregressiva che con modellazione generativa mascherata, dimostrandone l'efficacia e l'efficienza per la modellazione linguistica vocale, nonché un gap di ricostruzione-generazione significativamente ridotto. Rilasciamo il nostro codice e i checkpoint del modello. Campioni audio sono disponibili su https://tadicodec.github.io/. Il codice e i checkpoint del modello sono rilasciati su https://github.com/HeCheng0625/Diffusion-Speech-Tokenizer.
English
Speech tokenizers serve as foundational components for speech language models, yet current designs exhibit several limitations, including: 1) dependence on multi-layer residual vector quantization structures or high frame rates, 2) reliance on auxiliary pre-trained models for semantic distillation, and 3) requirements for complex two-stage training processes. In this work, we introduce the Text-aware Diffusion Transformer Speech Codec (TaDiCodec), a novel approach designed to overcome these challenges. TaDiCodec employs end-to-end optimization for quantization and reconstruction through a diffusion autoencoder, while integrating text guidance into the diffusion decoder to enhance reconstruction quality and achieve optimal compression. TaDiCodec achieves an extremely low frame rate of 6.25 Hz and a corresponding bitrate of 0.0875 kbps with a single-layer codebook for 24 kHz speech, while maintaining superior performance on critical speech generation evaluation metrics such as Word Error Rate (WER), speaker similarity (SIM), and speech quality (UTMOS). Notably, TaDiCodec employs a single-stage, end-to-end training paradigm, and obviating the need for auxiliary pre-trained models. We also validate the compatibility of TaDiCodec in language model based zero-shot text-to-speech with both autoregressive modeling and masked generative modeling, demonstrating its effectiveness and efficiency for speech language modeling, as well as a significantly small reconstruction-generation gap. We will open source our code and model checkpoints. Audio samples are are available at https:/tadicodec.github.io/. We release code and model checkpoints at https:/github.com/HeCheng0625/Diffusion-Speech-Tokenizer.
PDF82August 26, 2025