Relatório Técnico do T5Gemma-TTS
T5Gemma-TTS Technical Report
April 2, 2026
Autores: Chihiro Arata, Kiyoshi Kurihara
cs.AI
Resumo
Os modelos de linguagem codec neurais autoregressivos demonstraram forte capacidade de clonagem de voz zero-shot, mas as arquiteturas somente-decodificador tratam o texto de entrada como um prefixo que compete com a sequência de áudio crescente pela capacidade posicional, enfraquecendo o condicionamento textual em enunciados longos. Apresentamos o T5Gemma-TTS, um modelo de linguagem codec codificador-decodificador que mantém um condicionamento textual persistente ao rotear representações textuais bidirecionais por meio de atenção cruzada em cada camada do decodificador. Construído sobre a estrutura pré-treinada codificador-decodificador T5Gemma (codificador de 2B + decodificador de 2B; 4B parâmetros), ele herda conhecimento linguístico rico sem conversão para fonemas e processa o texto diretamente ao nível de subpalavras. Para melhorar o controle de duração, introduzimos o *Progress-Monitoring Rotary Position Embedding* (PM-RoPE) em todas as 26 camadas de atenção cruzada, injetando sinais de progresso normalizados que ajudam o decodificador a rastrear o comprimento da fala alvo. Treinado em 170.000 horas de fala multilíngue em inglês, chinês e japonês, o T5Gemma-TTS alcança um ganho estatisticamente significativo em similaridade do locutor no japonês em relação ao XTTSv2 (0,677 vs. 0,622; intervalos de confiança de 95% não sobrepostos) e a maior similaridade numérica para locutor coreano (0,747), apesar do coreano não estar incluído no treinamento, embora esta margem sobre o XTTSv2 (0,741) não seja estatisticamente conclusiva. Ele também atinge a menor taxa de erro de caracteres japoneses numérica entre cinco modelos de referência (0,126), embora esta classificação deva ser interpretada com cautela devido à sobreposição parcial do intervalo de confiança com o Kokoro. Os resultados em inglês no LibriSpeech devem ser vistos como uma estimativa do limite superior, pois o LibriHeavy é um superconjunto do LibriSpeech. Usando o mesmo *checkpoint*, desabilitar o PM-RoPE na inferência causa uma falha quase completa na síntese: o CER se degrada de 0,129 para 0,982 e a precisão da duração cai de 79% para 46%. O código e os pesos estão disponíveis em https://github.com/Aratako/T5Gemma-TTS.
English
Autoregressive neural codec language models have shown strong zero-shot voice cloning ability, but decoder-only architectures treat input text as a prefix that competes with the growing audio sequence for positional capacity, weakening text conditioning over long utterances. We present T5Gemma-TTS, an encoder-decoder codec language model that maintains persistent text conditioning by routing bidirectional text representations through cross-attention at every decoder layer. Built on the T5Gemma pretrained encoder-decoder backbone (2B encoder + 2B decoder; 4B parameters), it inherits rich linguistic knowledge without phoneme conversion and processes text directly at the subword level. To improve duration control, we introduce Progress-Monitoring Rotary Position Embedding (PM-RoPE) in all 26 cross-attention layers, injecting normalized progress signals that help the decoder track target speech length. Trained on 170,000 hours of multilingual speech in English, Chinese, and Japanese, T5Gemma-TTS achieves a statistically significant speaker-similarity gain on Japanese over XTTSv2 (0.677 vs. 0.622; non-overlapping 95% confidence intervals) and the highest numerical Korean speaker similarity (0.747) despite Korean not being included in training, although this margin over XTTSv2 (0.741) is not statistically conclusive. It also attains the lowest numerical Japanese character error rate among five baselines (0.126), though this ranking should be interpreted cautiously because of partial confidence-interval overlap with Kokoro. English results on LibriSpeech should be viewed as an upper-bound estimate because LibriHeavy is a superset of LibriSpeech. Using the same checkpoint, disabling PM-RoPE at inference causes near-complete synthesis failure: CER degrades from 0.129 to 0.982 and duration accuracy drops from 79% to 46%. Code and weights are available at https://github.com/Aratako/T5Gemma-TTS.