ChatPaper.aiChatPaper

Informe Técnico de T5Gemma-TTS

T5Gemma-TTS Technical Report

April 2, 2026
Autores: Chihiro Arata, Kiyoshi Kurihara
cs.AI

Resumen

Los modelos de lenguaje neuronal de códec autorregresivos han demostrado una fuerte capacidad de clonación de voz zero-shot, pero las arquitecturas de solo decodificador tratan el texto de entrada como un prefijo que compite con la secuencia de audio en crecimiento por capacidad posicional, debilitando el condicionamiento textual en enunciados largos. Presentamos T5Gemma-TTS, un modelo de lenguaje de códec codificador-decodificador que mantiene un condicionamiento textual persistente mediante el enrutamiento de representaciones textuales bidireccionales a través de atención cruzada en cada capa del decodificador. Construido sobre el backbone preentrenado codificador-decodificador T5Gemma (codificador de 2B + decodificador de 2B; 4B parámetros), hereda un conocimiento lingüístico rico sin conversión a fonemas y procesa el texto directamente a nivel de subpalabras. Para mejorar el control de la duración, introducimos Progress-Monitoring Rotary Position Embedding (PM-RoPE) en las 26 capas de atención cruzada, inyectando señales de progreso normalizadas que ayudan al decodificador a rastrear la longitud del habla objetivo. Entrenado con 170,000 horas de habla multilingüe en inglés, chino y japonés, T5Gemma-TTS logra una ganancia estadísticamente significativa en similitud de locutor en japonés sobre XTTSv2 (0.677 vs. 0.622; intervalos de confianza del 95% no superpuestos) y la similitud de locutor coreano numéricamente más alta (0.747) a pesar de que el coreano no se incluyó en el entrenamiento, aunque este margen sobre XTTSv2 (0.741) no es estadísticamente concluyente. También alcanza la tasa de error de caracteres en japonés numéricamente más baja entre cinco líneas base (0.126), aunque esta clasificación debe interpretarse con cautela debido a la superposición parcial de intervalos de confianza con Kokoro. Los resultados en inglés en LibriSpeech deben verse como una estimación del límite superior porque LibriHeavy es un superconjunto de LibriSpeech. Usando el mismo checkpoint, deshabilitar PM-RoPE en la inferencia causa un fallo de síntesis casi completo: el CER se degrada de 0.129 a 0.982 y la precisión de duración cae del 79% al 46%. El código y los pesos están disponibles en https://github.com/Aratako/T5Gemma-TTS.
English
Autoregressive neural codec language models have shown strong zero-shot voice cloning ability, but decoder-only architectures treat input text as a prefix that competes with the growing audio sequence for positional capacity, weakening text conditioning over long utterances. We present T5Gemma-TTS, an encoder-decoder codec language model that maintains persistent text conditioning by routing bidirectional text representations through cross-attention at every decoder layer. Built on the T5Gemma pretrained encoder-decoder backbone (2B encoder + 2B decoder; 4B parameters), it inherits rich linguistic knowledge without phoneme conversion and processes text directly at the subword level. To improve duration control, we introduce Progress-Monitoring Rotary Position Embedding (PM-RoPE) in all 26 cross-attention layers, injecting normalized progress signals that help the decoder track target speech length. Trained on 170,000 hours of multilingual speech in English, Chinese, and Japanese, T5Gemma-TTS achieves a statistically significant speaker-similarity gain on Japanese over XTTSv2 (0.677 vs. 0.622; non-overlapping 95% confidence intervals) and the highest numerical Korean speaker similarity (0.747) despite Korean not being included in training, although this margin over XTTSv2 (0.741) is not statistically conclusive. It also attains the lowest numerical Japanese character error rate among five baselines (0.126), though this ranking should be interpreted cautiously because of partial confidence-interval overlap with Kokoro. English results on LibriSpeech should be viewed as an upper-bound estimate because LibriHeavy is a superset of LibriSpeech. Using the same checkpoint, disabling PM-RoPE at inference causes near-complete synthesis failure: CER degrades from 0.129 to 0.982 and duration accuracy drops from 79% to 46%. Code and weights are available at https://github.com/Aratako/T5Gemma-TTS.
PDF31April 4, 2026