ChatPaper.aiChatPaper

Технический отчет по T5Gemma-TTS

T5Gemma-TTS Technical Report

April 2, 2026
Авторы: Chihiro Arata, Kiyoshi Kurihara
cs.AI

Аннотация

Авторегрессионные нейросетевые кодек-языковые модели продемонстрировали высокую способность к нулевому клонированию голоса, однако архитектуры, использующие только декодер, трактуют входной текст как префикс, который конкурирует с растущей аудиопоследовательностью за позиционную емкость, что ослабляет текстовую обусловленность в длинных высказываниях. Мы представляем T5Gemma-TTS, кодек-языковую модель с архитектурой кодировщик-декодер, которая сохраняет устойчивую текстовую обусловленность за счет передачи двунаправленных текстовых представлений через кросс-внимание на каждом слое декодера. Построенная на базе предобученной модели T5Gemma с архитектурой кодировщик-декодер (кодировщик 2B + декодер 2B; 4B параметров), модель наследует богатые лингвистические знания без преобразования в фонемы и обрабатывает текст напрямую на уровне субслов. Для улучшения контроля длительности мы вводим Прогресс-мониторинговые ротационные позиционные эмбеддинги (PM-RoPE) во всех 26 слоях кросс-внимания, внедряя нормализованные сигналы прогресса, которые помогают декодеру отслеживать целевую длительность речи. Обученная на 170 000 часах многоязычной речи на английском, китайском и японском языках, T5Gemma-TTS демонстрирует статистически значимое улучшение схожести с диктором на японском языке по сравнению с XTTSv2 (0.677 против 0.622; непересекающиеся 95% доверительные интервалы) и наивысшую численную схожесть с диктором на корейском языке (0.747), несмотря на то, что корейский язык не входил в обучающие данные, хотя это преимущество перед XTTSv2 (0.741) не является статистически conclusive. Модель также достигает наименьшей численной частоты ошибок по символам на японском языке среди пяти базовых моделей (0.126), хотя эту оценку следует интерпретировать с осторожностью из-за частичного перекрытия доверительных интервалов с моделью Kokoro. Результаты для английского языка на LibriSpeech следует рассматривать как оценку верхней границы, поскольку LibriHeavy является надмножеством LibriSpeech. При использовании того же контрольного чекпоинта отключение PM-RoPE на этапе вывода приводит к почти полному сбою синтеза: CER ухудшается с 0.129 до 0.982, а точность длительности падает с 79% до 46%. Код и веса модели доступны по адресу https://github.com/Aratako/T5Gemma-TTS.
English
Autoregressive neural codec language models have shown strong zero-shot voice cloning ability, but decoder-only architectures treat input text as a prefix that competes with the growing audio sequence for positional capacity, weakening text conditioning over long utterances. We present T5Gemma-TTS, an encoder-decoder codec language model that maintains persistent text conditioning by routing bidirectional text representations through cross-attention at every decoder layer. Built on the T5Gemma pretrained encoder-decoder backbone (2B encoder + 2B decoder; 4B parameters), it inherits rich linguistic knowledge without phoneme conversion and processes text directly at the subword level. To improve duration control, we introduce Progress-Monitoring Rotary Position Embedding (PM-RoPE) in all 26 cross-attention layers, injecting normalized progress signals that help the decoder track target speech length. Trained on 170,000 hours of multilingual speech in English, Chinese, and Japanese, T5Gemma-TTS achieves a statistically significant speaker-similarity gain on Japanese over XTTSv2 (0.677 vs. 0.622; non-overlapping 95% confidence intervals) and the highest numerical Korean speaker similarity (0.747) despite Korean not being included in training, although this margin over XTTSv2 (0.741) is not statistically conclusive. It also attains the lowest numerical Japanese character error rate among five baselines (0.126), though this ranking should be interpreted cautiously because of partial confidence-interval overlap with Kokoro. English results on LibriSpeech should be viewed as an upper-bound estimate because LibriHeavy is a superset of LibriSpeech. Using the same checkpoint, disabling PM-RoPE at inference causes near-complete synthesis failure: CER degrades from 0.129 to 0.982 and duration accuracy drops from 79% to 46%. Code and weights are available at https://github.com/Aratako/T5Gemma-TTS.
PDF31April 4, 2026