ChatPaper.aiChatPaper

Au-delà des cadres fixes : une tokenisation dynamique de la parole alignée sur les caractères

Beyond Fixed Frames: Dynamic Character-Aligned Speech Tokenization

January 30, 2026
papers.authors: Luca Della Libera, Cem Subakan, Mirco Ravanelli
cs.AI

papers.abstract

Les codecs audio neuronaux sont au cœur des technologies modernes de traitement de la parole conversationnelle, convertissant la parole continue en séquences de tokens discrets pouvant être traités par les LLM. Cependant, les codecs existants fonctionnent généralement à des fréquences d'images fixes, allouant les tokens uniformément dans le temps et produisant des séquences inutilement longues. Dans ce travail, nous présentons DyCAST, un tokeniseur vocal dynamique aligné sur les caractères, qui permet une tokenisation à fréquence d'images variable grâce à un alignement souple au niveau des caractères et une modélisation explicite de la durée. DyCAST apprend à associer les tokens à des unités linguistiques au niveau du caractère pendant l'entraînement et prend en charge une inférence sans alignement avec un contrôle direct des durées des tokens pendant le décodage. Pour améliorer la qualité de la resynthèse vocale à faible fréquence d'images, nous introduisons en outre un mécanisme de décodage augmenté par retrieval qui améliore la fidélité de reconstruction sans augmenter le débit binaire. Les expériences montrent que DyCAST atteint une qualité de resynthèse vocale et des performances en aval compétitives tout en utilisant significativement moins de tokens que les codecs à fréquence d'images fixe. Le code et les checkpoints seront publiés publiquement à l'adresse https://github.com/lucadellalib/dycast.
English
Neural audio codecs are at the core of modern conversational speech technologies, converting continuous speech into sequences of discrete tokens that can be processed by LLMs. However, existing codecs typically operate at fixed frame rates, allocating tokens uniformly in time and producing unnecessarily long sequences. In this work, we introduce DyCAST, a Dynamic Character-Aligned Speech Tokenizer that enables variable-frame-rate tokenization through soft character-level alignment and explicit duration modeling. DyCAST learns to associate tokens with character-level linguistic units during training and supports alignment-free inference with direct control over token durations at decoding time. To improve speech resynthesis quality at low frame rates, we further introduce a retrieval-augmented decoding mechanism that enhances reconstruction fidelity without increasing bitrate. Experiments show that DyCAST achieves competitive speech resynthesis quality and downstream performance while using significantly fewer tokens than fixed-frame-rate codecs. Code and checkpoints will be released publicly at https://github.com/lucadellalib/dycast.
PDF14February 7, 2026