Seed-TTS:一系列高品質多功能語音生成模型Seed-TTS: A Family of High-Quality Versatile Speech Generation Models
我們介紹了Seed-TTS,這是一系列大規模自回歸文本轉語音(TTS)模型,能夠生成幾乎無法區分的人類語音。Seed-TTS作為語音生成的基礎模型,在語境學習中表現出色,實現了在語者相似度和自然度方面與真實人類語音相匹配的性能,這在客觀和主觀評估中均得到證實。通過微調,我們在這些指標上實現了更高的主觀得分。Seed-TTS在各種語音屬性(如情感)的控制能力方面優越,能夠為野外說話者生成高度表達豐富且多樣化的語音。此外,我們提出了一種用於語音因子分解的自蒸餾方法,以及一種增強模型韌性、語者相似度和可控性的強化學習方法。我們還提出了Seed-TTS模型的非自回歸(NAR)變體,名為Seed-TTS_DiT,採用完全基於擴散的架構。與先前基於NAR的TTS系統不同,Seed-TTS_DiT不依賴於預估的音素持續時間,並通過端到端處理進行語音生成。我們展示了這個變體實現了與基於語言模型的變體相當的性能,並展示了其在語音編輯中的有效性。我們鼓勵讀者在https://bytedancespeech.github.io/seedtts_tech_report上聆聽演示。