ChatPaper.aiChatPaper

Más allá de los marcos fijos: Tokenización dinámica del habla alineada con el personaje

Beyond Fixed Frames: Dynamic Character-Aligned Speech Tokenization

January 30, 2026
Autores: Luca Della Libera, Cem Subakan, Mirco Ravanelli
cs.AI

Resumen

Los códecs neuronales de audio son el núcleo de las tecnologías modernas de conversación vocal, convirtiendo el habla continua en secuencias de tokens discretos que pueden ser procesados por los LLM. Sin embargo, los códecs existentes suelen operar a velocidades de fotograma fijas, asignando tokens uniformemente en el tiempo y produciendo secuencias innecesariamente largas. En este trabajo, presentamos DyCAST, un Tokenizador de Voz Dinámico Alineado con Caracteres que permite una tokenización de velocidad de fotograma variable mediante una alineación suave a nivel de carácter y un modelado explícito de duración. DyCAST aprende a asociar tokens con unidades lingüísticas a nivel de carácter durante el entrenamiento y permite una inferencia sin alineación con control directo sobre las duraciones de los tokens durante la decodificación. Para mejorar la calidad de la resíntesis del habla a bajas velocidades de fotograma, introducimos además un mecanismo de decodificación aumentada por recuperación que mejora la fidelidad de reconstrucción sin aumentar la tasa de bits. Los experimentos demuestran que DyCAST logra una calidad de resíntesis del habla competitiva y un rendimiento en tareas posteriores mientras utiliza significativamente menos tokens que los códecs de velocidad de fotograma fija. El código y los puntos de control se publicarán en https://github.com/lucadellalib/dycast.
English
Neural audio codecs are at the core of modern conversational speech technologies, converting continuous speech into sequences of discrete tokens that can be processed by LLMs. However, existing codecs typically operate at fixed frame rates, allocating tokens uniformly in time and producing unnecessarily long sequences. In this work, we introduce DyCAST, a Dynamic Character-Aligned Speech Tokenizer that enables variable-frame-rate tokenization through soft character-level alignment and explicit duration modeling. DyCAST learns to associate tokens with character-level linguistic units during training and supports alignment-free inference with direct control over token durations at decoding time. To improve speech resynthesis quality at low frame rates, we further introduce a retrieval-augmented decoding mechanism that enhances reconstruction fidelity without increasing bitrate. Experiments show that DyCAST achieves competitive speech resynthesis quality and downstream performance while using significantly fewer tokens than fixed-frame-rate codecs. Code and checkpoints will be released publicly at https://github.com/lucadellalib/dycast.
PDF14February 7, 2026