MiniMax-Speech:內建零樣本文字轉語音系統,配備可學習的說話者編碼器MiniMax-Speech: Intrinsic Zero-Shot Text-to-Speech with a Learnable
Speaker Encoder
我們推出MiniMax-Speech,這是一款基於自迴歸Transformer架構的文本轉語音(TTS)模型,能夠生成高品質語音。其核心創新在於我們的可學習說話者編碼器,該編碼器能從參考音頻中提取音色特徵,而無需其轉錄文本。這使得MiniMax-Speech能夠以零樣本方式生成與參考音頻音色一致且極富表現力的語音,同時也支持一次樣本語音克隆,實現與參考聲音極高的相似度。此外,通過提出的Flow-VAE,合成音頻的整體質量得到了提升。我們的模型支持32種語言,並在多項客觀和主觀評估指標上展現出卓越性能。值得注意的是,它在客觀語音克隆指標(詞錯誤率和說話者相似度)上達到了業界領先水平(SOTA),並在公開的TTS Arena排行榜上位居榜首。MiniMax-Speech的另一大優勢,得益於說話者編碼器提供的強大且解耦的特徵表示,是其無需修改基礎模型即可擴展的能力,支持多種應用場景,例如:通過LoRA實現任意語音情感控制;通過直接從文本描述合成音色特徵實現文本到語音(T2V);以及通過額外數據微調音色特徵進行專業語音克隆(PVC)。我們鼓勵讀者訪問https://minimax-ai.github.io/tts_tech_report以獲取更多示例。