固定フレームを超えて:動的キャラクター連携型音声トークン化
Beyond Fixed Frames: Dynamic Character-Aligned Speech Tokenization
January 30, 2026
著者: Luca Della Libera, Cem Subakan, Mirco Ravanelli
cs.AI
要旨
ニューラル音声コーデックは、連続音声をLLMで処理可能な離散トークン列に変換する、現代の対話音声技術の中核をなす。しかし、既存のコーデックは一般に固定フレームレートで動作し、時間的に均一にトークンを割り当てるため、不必要に長い系列を生成してしまう。本研究では、ソフト文字単位アライメントと明示的な継続時間モデリングを通じて可変フレームレートのトークン化を実現するDyCAST(Dynamic Character-Aligned Speech Tokenizer)を提案する。DyCASTは学習時にトークンと文字単位の言語単位の関連付けを学習し、復号時にトークン継続時間を直接制御可能なアライメント不要の推論を可能とする。低フレームレートにおける音声再合成品質を向上させるため、ビットレートを増加させずに再構成忠実度を高める検索強化型復号機制も導入する。実験により、DyCASTが固定フレームレートコーデックよりも大幅に少ないトークン数で、競合する音声再合成品質と下流タスク性能を達成することを示す。コードとチェックポイントはhttps://github.com/lucadellalib/dycast で公開予定である。
English
Neural audio codecs are at the core of modern conversational speech technologies, converting continuous speech into sequences of discrete tokens that can be processed by LLMs. However, existing codecs typically operate at fixed frame rates, allocating tokens uniformly in time and producing unnecessarily long sequences. In this work, we introduce DyCAST, a Dynamic Character-Aligned Speech Tokenizer that enables variable-frame-rate tokenization through soft character-level alignment and explicit duration modeling. DyCAST learns to associate tokens with character-level linguistic units during training and supports alignment-free inference with direct control over token durations at decoding time. To improve speech resynthesis quality at low frame rates, we further introduce a retrieval-augmented decoding mechanism that enhances reconstruction fidelity without increasing bitrate. Experiments show that DyCAST achieves competitive speech resynthesis quality and downstream performance while using significantly fewer tokens than fixed-frame-rate codecs. Code and checkpoints will be released publicly at https://github.com/lucadellalib/dycast.