ChatPaper.aiChatPaper

T5Gemma-TTS Technischer Bericht

T5Gemma-TTS Technical Report

April 2, 2026
Autoren: Chihiro Arata, Kiyoshi Kurihara
cs.AI

Zusammenfassung

Autoregressive neurale Codec-Sprachmodelle haben eine starke Zero-Shot-Sprachklonfähigkeit gezeigt, aber Decoder-only-Architekturen behandeln Eingabetext als Präfix, das mit der wachsenden Audiosequenz um positionsbedingte Kapazität konkurriert, was die Textkonditionierung bei langen Äußerungen schwächt. Wir stellen T5Gemma-TTS vor, ein Encoder-Decoder-Codec-Sprachmodell, das eine persistente Textkonditionierung beibehält, indem bidirektionale Textrepräsentationen über Cross-Attention in jeder Decoder-Schicht geleitet werden. Auf dem vortrainierten T5Gemma-Encoder-Decoder-Gerüst aufbauend (2B Encoder + 2B Decoder; 4B Parameter) erbt es umfangreiches linguistisches Wissen ohne Phonemkonvertierung und verarbeitet Text direkt auf Subwort-Ebene. Um die Dauerenkontrolle zu verbessern, führen wir Progress-Monitoring Rotary Position Embedding (PM-RoPE) in allen 26 Cross-Attention-Schichten ein, das normalisierte Fortschrittssignale injiziert, die dem Decoder helfen, die Zielsprachlänge zu verfolgen. Trainiert mit 170.000 Stunden mehrsprachiger Sprache in Englisch, Chinesisch und Japanisch, erzielt T5Gemma-TTS einen statistisch signifikanten Sprecherähnlichkeitsgewinn für Japanisch gegenüber XTTSv2 (0,677 vs. 0,622; nicht überlappende 95%-Konfidenzintervalle) und die höchste numerische koreanische Sprecherähnlichkeit (0,747), obwohl Koreanisch nicht im Training enthalten war, auch wenn dieser Vorsprung gegenüber XTTSv2 (0,741) statistisch nicht schlüssig ist. Es erreicht auch die niedrigste numerische japanische Zeichenfehlerrate unter fünf Baseline-Modellen (0,126), wobei diese Rangfolge aufgrund teilweiser Konfidenzintervallüberlappung mit Kokoro vorsichtig interpretiert werden sollte. Englische Ergebnisse auf LibriSpeech sollten als Obergrenzenschätzung betrachtet werden, da LibriHeavy eine Obermenge von LibriSpeech ist. Bei Verwendung des gleichen Checkpoints führt das Deaktivieren von PM-RoPE zur Inferenz zu einem beinahe vollständigen Syntheseversagen: CER verschlechtert sich von 0,129 auf 0,982 und die Dauerengenauigkeit sinkt von 79 % auf 46 %. Code und Gewichte sind unter https://github.com/Aratako/T5Gemma-TTS verfügbar.
English
Autoregressive neural codec language models have shown strong zero-shot voice cloning ability, but decoder-only architectures treat input text as a prefix that competes with the growing audio sequence for positional capacity, weakening text conditioning over long utterances. We present T5Gemma-TTS, an encoder-decoder codec language model that maintains persistent text conditioning by routing bidirectional text representations through cross-attention at every decoder layer. Built on the T5Gemma pretrained encoder-decoder backbone (2B encoder + 2B decoder; 4B parameters), it inherits rich linguistic knowledge without phoneme conversion and processes text directly at the subword level. To improve duration control, we introduce Progress-Monitoring Rotary Position Embedding (PM-RoPE) in all 26 cross-attention layers, injecting normalized progress signals that help the decoder track target speech length. Trained on 170,000 hours of multilingual speech in English, Chinese, and Japanese, T5Gemma-TTS achieves a statistically significant speaker-similarity gain on Japanese over XTTSv2 (0.677 vs. 0.622; non-overlapping 95% confidence intervals) and the highest numerical Korean speaker similarity (0.747) despite Korean not being included in training, although this margin over XTTSv2 (0.741) is not statistically conclusive. It also attains the lowest numerical Japanese character error rate among five baselines (0.126), though this ranking should be interpreted cautiously because of partial confidence-interval overlap with Kokoro. English results on LibriSpeech should be viewed as an upper-bound estimate because LibriHeavy is a superset of LibriSpeech. Using the same checkpoint, disabling PM-RoPE at inference causes near-complete synthesis failure: CER degrades from 0.129 to 0.982 and duration accuracy drops from 79% to 46%. Code and weights are available at https://github.com/Aratako/T5Gemma-TTS.
PDF31April 4, 2026