Technisch Rapport T5Gemma-TTS

Samenvatting

Autoregressieve neurale codec-taalmodellen hebben een sterke zero-shot stemklonering getoond, maar decoder-only architecturen behandelen invoertekst als een voorvoegsel dat concurreert met de groeiende audiosequentie voor positionele capaciteit, wat de tekstconditionering bij lange uitingen verzwakt. Wij presenteren T5Gemma-TTS, een encoder-decoder codec-taalmodel dat persistente tekstconditionering behoudt door bidirectionele tekstrepresentaties via cross-attention naar elke decoderlaag te routeren. Gebouwd op de T5Gemma vooraf getrainde encoder-decoder-backbone (2B encoder + 2B decoder; 4B parameters), erft het rijke linguïstische kennis over zonder foneemconversie en verwerkt tekst direct op subwoordniveau. Om de duurcontrole te verbeteren, introduceren we Progress-Monitoring Rotary Position Embedding (PM-RoPE) in alle 26 cross-attention lagen, waarbij genormaliseerde voortgangssignalen worden geïnjecteerd die de decoder helpen de doelspraaklengte bij te houden. Getraind op 170.000 uur meertalige spraak in Engels, Chinees en Japans, behaalt T5Gemma-TTS een statistisch significante spreker-gelijkeniswinst voor Japans ten opzichte van XTTSv2 (0,677 vs. 0,622; niet-overlappende 95% betrouwbaarheidsintervallen) en de hoogste numerieke Koreaanse spreker-gelijkenis (0,747) ondanks dat Koreaans niet in de training was opgenomen, hoewel deze marge ten opzichte van XTTSv2 (0,741) niet statistisch conclusief is. Het behaalt ook de laagste numerieke Japanse karakterfoutratio onder vijf baseline-modellen (0,126), hoewel deze rangschikking voorzichtig geïnterpreteerd moet worden vanwege gedeeltelijke overlap van betrouwbaarheidsintervallen met Kokoro. Engelse resultaten op LibriSpeech moeten worden gezien als een bovengrens schatting omdat LibriHeavy een superset van LibriSpeech is. Met dezelfde checkpoint veroorzaakt het uitschakelen van PM-RoPE tijdens inferentie een bijna volledige synthesefout: CER verslechtert van 0,129 naar 0,982 en de duurnauwkeurigheid daalt van 79% naar 46%. Code en gewichten zijn beschikbaar op https://github.com/Aratako/T5Gemma-TTS.

English

Autoregressive neural codec language models have shown strong zero-shot voice cloning ability, but decoder-only architectures treat input text as a prefix that competes with the growing audio sequence for positional capacity, weakening text conditioning over long utterances. We present T5Gemma-TTS, an encoder-decoder codec language model that maintains persistent text conditioning by routing bidirectional text representations through cross-attention at every decoder layer. Built on the T5Gemma pretrained encoder-decoder backbone (2B encoder + 2B decoder; 4B parameters), it inherits rich linguistic knowledge without phoneme conversion and processes text directly at the subword level. To improve duration control, we introduce Progress-Monitoring Rotary Position Embedding (PM-RoPE) in all 26 cross-attention layers, injecting normalized progress signals that help the decoder track target speech length. Trained on 170,000 hours of multilingual speech in English, Chinese, and Japanese, T5Gemma-TTS achieves a statistically significant speaker-similarity gain on Japanese over XTTSv2 (0.677 vs. 0.622; non-overlapping 95% confidence intervals) and the highest numerical Korean speaker similarity (0.747) despite Korean not being included in training, although this margin over XTTSv2 (0.741) is not statistically conclusive. It also attains the lowest numerical Japanese character error rate among five baselines (0.126), though this ranking should be interpreted cautiously because of partial confidence-interval overlap with Kokoro. English results on LibriSpeech should be viewed as an upper-bound estimate because LibriHeavy is a superset of LibriSpeech. Using the same checkpoint, disabling PM-RoPE at inference causes near-complete synthesis failure: CER degrades from 0.129 to 0.982 and duration accuracy drops from 79% to 46%. Code and weights are available at https://github.com/Aratako/T5Gemma-TTS.

Technisch Rapport T5Gemma-TTS

T5Gemma-TTS Technical Report

Samenvatting

Support