Oltre gli Schemi Rigidi: Tokenizzazione Dinamica del Parlato Allineata ai Personaggi

Abstract

I codec neurali audio sono al centro delle moderne tecnologie vocali conversazionali, convertendo il parlato continuo in sequenze di token discreti che possono essere elaborati da LLM. Tuttavia, i codec esistenti operano tipicamente a frequenze di frame fisse, allocando i token uniformemente nel tempo e producendo sequenze inutilmente lunghe. In questo lavoro, introduciamo DyCAST, un tokenizzatore vocale dinamico allineato a livello di carattere che abilita una tokenizzazione a frequenza di frame variabile attraverso un allineamento soft a livello di carattere e una modellazione esplicita della durata. DyCAST impara ad associare i token a unità linguistiche a livello di carattere durante l'addestramento e supporta un'inferenza senza allineamento con controllo diretto sulle durate dei token al momento del decoding. Per migliorare la qualità di risintesi del parlato a basse frequenze di frame, introduciamo inoltre un meccanismo di decoding aumentato tramite retrieval che migliora la fedeltà di ricostruzione senza aumentare il bitrate. Gli esperimenti mostrano che DyCAST raggiunge una qualità di risintesi vocale competitiva e prestazioni downstream paragonabili, utilizzando significativamente meno token rispetto ai codec a frequenza di frame fissa. Codice e checkpoint saranno rilasciati pubblicamente su https://github.com/lucadellalib/dycast.

English

Neural audio codecs are at the core of modern conversational speech technologies, converting continuous speech into sequences of discrete tokens that can be processed by LLMs. However, existing codecs typically operate at fixed frame rates, allocating tokens uniformly in time and producing unnecessarily long sequences. In this work, we introduce DyCAST, a Dynamic Character-Aligned Speech Tokenizer that enables variable-frame-rate tokenization through soft character-level alignment and explicit duration modeling. DyCAST learns to associate tokens with character-level linguistic units during training and supports alignment-free inference with direct control over token durations at decoding time. To improve speech resynthesis quality at low frame rates, we further introduce a retrieval-augmented decoding mechanism that enhances reconstruction fidelity without increasing bitrate. Experiments show that DyCAST achieves competitive speech resynthesis quality and downstream performance while using significantly fewer tokens than fixed-frame-rate codecs. Code and checkpoints will be released publicly at https://github.com/lucadellalib/dycast.

Oltre gli Schemi Rigidi: Tokenizzazione Dinamica del Parlato Allineata ai Personaggi

Beyond Fixed Frames: Dynamic Character-Aligned Speech Tokenization

Abstract

Support