ChatPaper.aiChatPaper

За пределами фиксированных фреймов: динамическая токенизация речи с выравниванием по персонажам

Beyond Fixed Frames: Dynamic Character-Aligned Speech Tokenization

January 30, 2026
Авторы: Luca Della Libera, Cem Subakan, Mirco Ravanelli
cs.AI

Аннотация

Нейронные аудиокодексы лежат в основе современных технологий разговорной речи, преобразуя непрерывную речь в последовательности дискретных токенов, которые могут обрабатываться большими языковыми моделями. Однако существующие кодексы обычно работают с фиксированной частотой кадров, равномерно распределяя токены во времени и создавая избыточно длинные последовательности. В данной работе мы представляем DyCAST — динамический токенизатор речи с выравниванием по символам, который обеспечивает токенизацию с переменной частотой кадров за счет мягкого выравнивания на уровне символов и явного моделирования длительностей. DyCAST обучается ассоциировать токены с лингвистическими единицами на символьном уровне и поддерживает вывод без выравнивания с прямым контролем длительностей токенов во время декодирования. Для улучшения качества ресинтеза речи при низкой частоте кадров мы дополнительно вводим механизм декодирования с усилением на основе поиска, который повышает точность восстановления без увеличения битрейта. Эксперименты показывают, что DyCAST обеспечивает конкурентоспособное качество ресинтеза речи и производительность при значительном сокращении количества токенов по сравнению с кодексами с фиксированной частотой кадров. Код и контрольные точки будут опубликованы по адресу https://github.com/lucadellalib/dycast.
English
Neural audio codecs are at the core of modern conversational speech technologies, converting continuous speech into sequences of discrete tokens that can be processed by LLMs. However, existing codecs typically operate at fixed frame rates, allocating tokens uniformly in time and producing unnecessarily long sequences. In this work, we introduce DyCAST, a Dynamic Character-Aligned Speech Tokenizer that enables variable-frame-rate tokenization through soft character-level alignment and explicit duration modeling. DyCAST learns to associate tokens with character-level linguistic units during training and supports alignment-free inference with direct control over token durations at decoding time. To improve speech resynthesis quality at low frame rates, we further introduce a retrieval-augmented decoding mechanism that enhances reconstruction fidelity without increasing bitrate. Experiments show that DyCAST achieves competitive speech resynthesis quality and downstream performance while using significantly fewer tokens than fixed-frame-rate codecs. Code and checkpoints will be released publicly at https://github.com/lucadellalib/dycast.
PDF13February 7, 2026