Rapport Technique de T5Gemma-TTS

Résumé

Les modèles de langages neuronaux autogressifs pour codec ont démontré une forte capacité de clonage vocal en zero-shot, mais les architectures à décodeur seul traitent le texte d'entrée comme un préfixe qui entre en concurrence avec la séquence audio croissante pour la capacité positionnelle, affaiblissant le conditionnement textuel sur les énoncés longs. Nous présentons T5Gemma-TTS, un modèle de langage à codec de type encodeur-décodeur qui maintient un conditionnement textuel persistant en acheminant des représentations textuelles bidirectionnelles via une attention croisée à chaque couche du décodeur. Construit sur l'architecture pré-entraînée encodeur-décodeur T5Gemma (encodeur 2B + décodeur 2B ; 4 milliards de paramètres), il hérite de riches connaissances linguistiques sans conversion phonémique et traite le texte directement au niveau des sous-mots. Pour améliorer le contrôle de la durée, nous introduisons un encodage positionnel rotatoire avec surveillance de la progression (PM-RoPE) dans les 26 couches d'attention croisée, injectant des signaux de progression normalisés qui aident le décodeur à suivre la longueur de parole cible. Entraîné sur 170 000 heures de parole multilingue en anglais, chinois et japonais, T5Gemma-TTS obtient un gain de similarité du locuteur statistiquement significatif pour le japonais par rapport à XTTSv2 (0,677 contre 0,622 ; intervalles de confiance à 95 % non chevauchants) et la similarité du locuteur coréen numérique la plus élevée (0,747) bien que le coréen ne soit pas inclus dans l'entraînement, bien que cette marge par rapport à XTTSv2 (0,741) ne soit pas statistiquement concluante. Il atteint également le taux d'erreur sur les caractères japonais numérique le plus bas parmi cinq modèles de référence (0,126), bien que ce classement doive être interprété avec prudence en raison d'un chevauchement partiel des intervalles de confiance avec Kokoro. Les résultats en anglais sur LibriSpeech doivent être considérés comme une estimation de la borne supérieure car LibriHeavy est un sur-ensemble de LibriSpeech. En utilisant la même checkpoint, la désactivation de PM-RoPE lors de l'inférence provoque un échec de synthèse quasi-complet : le CER se dégrade de 0,129 à 0,982 et la précision de la durée chute de 79% à 46%. Le code et les poids sont disponibles à l'adresse https://github.com/Aratako/T5Gemma-TTS.

English

Autoregressive neural codec language models have shown strong zero-shot voice cloning ability, but decoder-only architectures treat input text as a prefix that competes with the growing audio sequence for positional capacity, weakening text conditioning over long utterances. We present T5Gemma-TTS, an encoder-decoder codec language model that maintains persistent text conditioning by routing bidirectional text representations through cross-attention at every decoder layer. Built on the T5Gemma pretrained encoder-decoder backbone (2B encoder + 2B decoder; 4B parameters), it inherits rich linguistic knowledge without phoneme conversion and processes text directly at the subword level. To improve duration control, we introduce Progress-Monitoring Rotary Position Embedding (PM-RoPE) in all 26 cross-attention layers, injecting normalized progress signals that help the decoder track target speech length. Trained on 170,000 hours of multilingual speech in English, Chinese, and Japanese, T5Gemma-TTS achieves a statistically significant speaker-similarity gain on Japanese over XTTSv2 (0.677 vs. 0.622; non-overlapping 95% confidence intervals) and the highest numerical Korean speaker similarity (0.747) despite Korean not being included in training, although this margin over XTTSv2 (0.741) is not statistically conclusive. It also attains the lowest numerical Japanese character error rate among five baselines (0.126), though this ranking should be interpreted cautiously because of partial confidence-interval overlap with Kokoro. English results on LibriSpeech should be viewed as an upper-bound estimate because LibriHeavy is a superset of LibriSpeech. Using the same checkpoint, disabling PM-RoPE at inference causes near-complete synthesis failure: CER degrades from 0.129 to 0.982 and duration accuracy drops from 79% to 46%. Code and weights are available at https://github.com/Aratako/T5Gemma-TTS.

Rapport Technique de T5Gemma-TTS

T5Gemma-TTS Technical Report

Résumé

Support