ChatPaper.aiChatPaper

고정된 프레임을 넘어서: 캐릭터 정렬 방식의 동적 음성 토큰화

Beyond Fixed Frames: Dynamic Character-Aligned Speech Tokenization

January 30, 2026
저자: Luca Della Libera, Cem Subakan, Mirco Ravanelli
cs.AI

초록

신경망 오디오 코덱은 연속 음성을 LLM이 처리할 수 있는 이산 토큰 시퀀스로 변환하는 현대 대화형 음성 기술의 핵심입니다. 그러나 기존 코덱은 일반적으로 고정 프레임 레이트로 작동하여 시간에 균일하게 토큰을 할당하고 불필요하게 긴 시퀀스를 생성합니다. 본 연구에서는 소프트 문자 수준 정렬과 명시적 지속 시간 모델링을 통해 가변 프레임 레이트 토큰화를 가능하게 하는 동적 문자 정렬 음성 토크나이저 DyCAST를 소개합니다. DyCAST는 학습 과정에서 토큰을 문자 수준 언어 단위와 연관시키도록 학습하며, 디코딩 시점에 토큰 지속 시간을 직접 제어하여 정렬 없이 추론을 지원합니다. 낮은 프레임 레이트에서 음성 재합성 품질을 향상시키기 위해, 비트레이트를 증가시키지 않으면서 재구성 충실도를 향상시키는 검색 증강 디코딩 메커니즘을 추가로 도입했습니다. 실험 결과 DyCAST는 고정 프레임 레이트 코덱보다 훨씬 적은 토큰을 사용하면서도 경쟁력 있는 음성 재합성 품질과 하위 작업 성능을 달성함을 보여줍니다. 코드와 체크포인트는 https://github.com/lucadellalib/dycast 에 공개될 예정입니다.
English
Neural audio codecs are at the core of modern conversational speech technologies, converting continuous speech into sequences of discrete tokens that can be processed by LLMs. However, existing codecs typically operate at fixed frame rates, allocating tokens uniformly in time and producing unnecessarily long sequences. In this work, we introduce DyCAST, a Dynamic Character-Aligned Speech Tokenizer that enables variable-frame-rate tokenization through soft character-level alignment and explicit duration modeling. DyCAST learns to associate tokens with character-level linguistic units during training and supports alignment-free inference with direct control over token durations at decoding time. To improve speech resynthesis quality at low frame rates, we further introduce a retrieval-augmented decoding mechanism that enhances reconstruction fidelity without increasing bitrate. Experiments show that DyCAST achieves competitive speech resynthesis quality and downstream performance while using significantly fewer tokens than fixed-frame-rate codecs. Code and checkpoints will be released publicly at https://github.com/lucadellalib/dycast.
PDF14February 7, 2026