Voorbij Vaste Kaders: Dynamische, Karakterafgestemde Spraaktokenisatie
Beyond Fixed Frames: Dynamic Character-Aligned Speech Tokenization
January 30, 2026
Auteurs: Luca Della Libera, Cem Subakan, Mirco Ravanelli
cs.AI
Samenvatting
Neurale audiocodecs vormen de kern van moderne conversatie-spraaktechnologieën, waarbij continue spraak wordt omgezet in sequenties van discrete tokens die door LLM's verwerkt kunnen worden. Bestaande codecs werken echter doorgaans met vaste framesnelheden, waardoor tokens uniform in de tijd worden toegewezen en onnodig lange sequenties ontstaan. In dit werk introduceren we DyCAST, een dynamische tokenizer voor spraak die uitgelijnd is op karakterniveau, waardoor tokenisatie met variabele framesnelheid mogelijk wordt via zachte uitlijning op karakterniveau en expliciete modellering van spraakduur. DyCAST leert tijdens de training tokens te associëren met linguïstische eenheden op karakterniveau en ondersteunt inferentie zonder uitlijning met directe controle over tokenduur tijdens het decoderen. Om de kwaliteit van spraakhersynthese bij lage framesnelheden te verbeteren, introduceren we verder een retrieval-augmented decodeermechanisme dat de reconstructiegetrouwheid verbetert zonder de bitsnelheid te verhogen. Experimenten tonen aan dat DyCAST een competitieve kwaliteit van spraakhersynthese en downstreamprestaties bereikt, terwijl aanzienlijk minder tokens worden gebruikt dan bij codecs met vaste framesnelheid. Code en checkpoints worden openbaar vrijgegeven op https://github.com/lucadellalib/dycast.
English
Neural audio codecs are at the core of modern conversational speech technologies, converting continuous speech into sequences of discrete tokens that can be processed by LLMs. However, existing codecs typically operate at fixed frame rates, allocating tokens uniformly in time and producing unnecessarily long sequences. In this work, we introduce DyCAST, a Dynamic Character-Aligned Speech Tokenizer that enables variable-frame-rate tokenization through soft character-level alignment and explicit duration modeling. DyCAST learns to associate tokens with character-level linguistic units during training and supports alignment-free inference with direct control over token durations at decoding time. To improve speech resynthesis quality at low frame rates, we further introduce a retrieval-augmented decoding mechanism that enhances reconstruction fidelity without increasing bitrate. Experiments show that DyCAST achieves competitive speech resynthesis quality and downstream performance while using significantly fewer tokens than fixed-frame-rate codecs. Code and checkpoints will be released publicly at https://github.com/lucadellalib/dycast.