ChatPaper.aiChatPaper

Além de Moldes Fixos: Tokenização Dinâmica de Fala Alinhada ao Personagem

Beyond Fixed Frames: Dynamic Character-Aligned Speech Tokenization

January 30, 2026
Autores: Luca Della Libera, Cem Subakan, Mirco Ravanelli
cs.AI

Resumo

Os codecs neurais de áudio estão no centro das tecnologias modernas de conversação por voz, convertendo fala contínua em sequências de tokens discretos que podem ser processados por LLMs. No entanto, os codecs existentes normalmente operam em taxas de quadros fixas, alocando tokens uniformemente no tempo e produzindo sequências desnecessariamente longas. Neste trabalho, introduzimos o DyCAST, um Tokenizador de Fala Dinâmico Alinhado por Caractere, que permite uma tokenização com taxa de quadros variável através de um alinhamento suave a nível de caractere e modelagem explícita de duração. O DyCAST aprende a associar tokens a unidades linguísticas de nível de caractere durante o treinamento e suporta inferência sem alinhamento com controle direto sobre as durações dos tokens no momento da decodificação. Para melhorar a qualidade da ressíntese de fala em baixas taxas de quadros, introduzimos ainda um mecanismo de decodificação aumentado por recuperação que melhora a fidelidade de reconstrução sem aumentar a taxa de bits. Experimentos mostram que o DyCAST alcança qualidade competitiva na ressíntese de fala e desempenho em tarefas subsequentes, enquanto utiliza significativamente menos tokens do que codecs de taxa de quadros fixa. Código e checkpoints serão disponibilizados publicamente em https://github.com/lucadellalib/dycast.
English
Neural audio codecs are at the core of modern conversational speech technologies, converting continuous speech into sequences of discrete tokens that can be processed by LLMs. However, existing codecs typically operate at fixed frame rates, allocating tokens uniformly in time and producing unnecessarily long sequences. In this work, we introduce DyCAST, a Dynamic Character-Aligned Speech Tokenizer that enables variable-frame-rate tokenization through soft character-level alignment and explicit duration modeling. DyCAST learns to associate tokens with character-level linguistic units during training and supports alignment-free inference with direct control over token durations at decoding time. To improve speech resynthesis quality at low frame rates, we further introduce a retrieval-augmented decoding mechanism that enhances reconstruction fidelity without increasing bitrate. Experiments show that DyCAST achieves competitive speech resynthesis quality and downstream performance while using significantly fewer tokens than fixed-frame-rate codecs. Code and checkpoints will be released publicly at https://github.com/lucadellalib/dycast.
PDF14February 7, 2026