Jenseits fester Rahmen: Dynamische, charakterausgerichtete Sprach-Tokenisierung
Beyond Fixed Frames: Dynamic Character-Aligned Speech Tokenization
January 30, 2026
papers.authors: Luca Della Libera, Cem Subakan, Mirco Ravanelli
cs.AI
papers.abstract
Neuronale Audiocodecs bilden das Kernstück moderner Konversationssprachtechnologien, indem sie kontinuierliche Sprache in Sequenzen diskreter Tokens umwandeln, die von LLMs verarbeitet werden können. Bisherige Codecs arbeiten jedoch typischerweise mit festen Bildraten, weisen Tokens gleichmäßig in der Zeit zu und erzeugen unnötig lange Sequenzen. In dieser Arbeit stellen wir DyCAST vor, einen dynamischen, zeichenbasierten Speech-Tokenizer, der eine tokenratenvariable Tokenisierung durch weiche Zeichenausrichtung und explizite Modellierung der Dauer ermöglicht. DyCAST erlernt während des Trainings die Zuordnung von Tokens zu zeichenbasierten linguistischen Einheiten und unterstützt eine ausrichtungsfreie Inferenz mit direkter Steuerung der Tokendauern während der Decodierung. Um die Sprachresynthesequalität bei niedrigen Bildraten zu verbessern, führen wir außerdem einen retrieval-augmentierten Decodierungsmechanismus ein, der die Rekonstruktionsqualität ohne Erhöhung der Bitrate verbessert. Experimente zeigen, dass DyCAST eine konkurrenzfähige Sprachresynthesequalität und nachgelagerte Leistung erzielt, während signifikant weniger Tokens als bei Codecs mit fester Bildrate verwendet werden. Code und Checkpoints werden unter https://github.com/lucadellalib/dycast veröffentlicht.
English
Neural audio codecs are at the core of modern conversational speech technologies, converting continuous speech into sequences of discrete tokens that can be processed by LLMs. However, existing codecs typically operate at fixed frame rates, allocating tokens uniformly in time and producing unnecessarily long sequences. In this work, we introduce DyCAST, a Dynamic Character-Aligned Speech Tokenizer that enables variable-frame-rate tokenization through soft character-level alignment and explicit duration modeling. DyCAST learns to associate tokens with character-level linguistic units during training and supports alignment-free inference with direct control over token durations at decoding time. To improve speech resynthesis quality at low frame rates, we further introduce a retrieval-augmented decoding mechanism that enhances reconstruction fidelity without increasing bitrate. Experiments show that DyCAST achieves competitive speech resynthesis quality and downstream performance while using significantly fewer tokens than fixed-frame-rate codecs. Code and checkpoints will be released publicly at https://github.com/lucadellalib/dycast.