T5Gemma-TTS 기술 보고서
T5Gemma-TTS Technical Report
April 2, 2026
저자: Chihiro Arata, Kiyoshi Kurihara
cs.AI
초록
자기회귀 신경 코덱 언어 모델은 강력한 제로샷 음성 복제 능력을 보여주지만, 디코더 전용 아키텍처는 입력 텍스트를 접두사로 취급하여 증가하는 오디오 시퀀스와 위치 용량을 경쟁하게 만들어 긴 발화에서 텍스트 조건화가 약화됩니다. 본 논문에서는 T5Gemma-TTS를 소개합니다. 이는 인코더-디코더 코덱 언어 모델로, 모든 디코더 레이어에서 교차 주의력을 통해 양방향 텍스트 표현을 라우팅하여 지속적인 텍스트 조건화를 유지합니다. T5Gemma 사전 학습된 인코더-디코더 백본(2B 인코더 + 2B 디코더; 4B 매개변수)을 기반으로 하여, 음소 변환 없이도 풍부한 언어학적 지식을 계승하며 텍스트를 서브워드 수준에서 직접 처리합니다. 발화 길이 제어를 개선하기 위해 26개의 모든 교차 주의 레이어에 Progress-Monitoring Rotary Position Embedding(PM-RoPE)을 도입하여, 디코더가 목표 음성 길이를 추적하도록 돕는 정규화된 진행 신호를 주입합니다. 영어, 중국어, 일본어의 170,000시간 다국어 음성 데이터로 학습된 T5Gemma-TTS는 일본어에서 XTTSv2 대비 통계적으로 유의미한 화자 유사도 향상(0.677 vs. 0.622; 겹치지 않는 95% 신뢰 구간)을 달성했으며, 학습 데이터에 포함되지 않은 한국어에서도 가장 높은 수치적 화자 유사도(0.747)를 기록했으나, XTTSv2(0.741) 대비 이 차이는 통계적으로 결론적이지 않습니다. 또한 5개 기준 모델 중 가장 낮은 수치의 일본어 문자 오류율(0.126)을 달성했으나, Kokoro와의 부분적 신뢰 구간 중복으로 인해 이 순위는 신중하게 해석해야 합니다. LibriSpeech의 영어 결과는 LibriHeavy가 LibriSpeech의 상위 집합이므로 상한 추정치로 간주해야 합니다. 동일 체크포인트를 사용하여 추론 시 PM-RoPE를 비활성화하면 합성이 거의 완전히 실패합니다: CER는 0.129에서 0.982로 악화되고 길이 정확도는 79%에서 46%로 떨어집니다. 코드와 가중치는 https://github.com/Aratako/T5Gemma-TTS에서 이용 가능합니다.
English
Autoregressive neural codec language models have shown strong zero-shot voice cloning ability, but decoder-only architectures treat input text as a prefix that competes with the growing audio sequence for positional capacity, weakening text conditioning over long utterances. We present T5Gemma-TTS, an encoder-decoder codec language model that maintains persistent text conditioning by routing bidirectional text representations through cross-attention at every decoder layer. Built on the T5Gemma pretrained encoder-decoder backbone (2B encoder + 2B decoder; 4B parameters), it inherits rich linguistic knowledge without phoneme conversion and processes text directly at the subword level. To improve duration control, we introduce Progress-Monitoring Rotary Position Embedding (PM-RoPE) in all 26 cross-attention layers, injecting normalized progress signals that help the decoder track target speech length. Trained on 170,000 hours of multilingual speech in English, Chinese, and Japanese, T5Gemma-TTS achieves a statistically significant speaker-similarity gain on Japanese over XTTSv2 (0.677 vs. 0.622; non-overlapping 95% confidence intervals) and the highest numerical Korean speaker similarity (0.747) despite Korean not being included in training, although this margin over XTTSv2 (0.741) is not statistically conclusive. It also attains the lowest numerical Japanese character error rate among five baselines (0.126), though this ranking should be interpreted cautiously because of partial confidence-interval overlap with Kokoro. English results on LibriSpeech should be viewed as an upper-bound estimate because LibriHeavy is a superset of LibriSpeech. Using the same checkpoint, disabling PM-RoPE at inference causes near-complete synthesis failure: CER degrades from 0.129 to 0.982 and duration accuracy drops from 79% to 46%. Code and weights are available at https://github.com/Aratako/T5Gemma-TTS.