MiniMax-Speech:具备可学习说话人编码器的本征零样本文本转语音系统MiniMax-Speech: Intrinsic Zero-Shot Text-to-Speech with a Learnable
Speaker Encoder
我们推出MiniMax-Speech,这是一款基于自回归Transformer架构的文本转语音(TTS)模型,能够生成高质量语音。其核心创新在于可学习的说话人编码器,该编码器无需参考音频的转录文本即可从中提取音色特征。这使得MiniMax-Speech能够以零样本方式生成与参考音频音色一致且极具表现力的语音,同时支持一次性语音克隆,实现与参考声音极高的相似度。此外,通过引入Flow-VAE,我们进一步提升了合成音频的整体质量。该模型支持32种语言,并在多项客观与主观评价指标上展现出卓越性能。特别是在客观语音克隆指标(如词错误率和说话人相似度)上,MiniMax-Speech达到了业界领先水平,并在公开的TTS竞技场排行榜上位居榜首。得益于说话人编码器提供的鲁棒且解耦的表征能力,MiniMax-Speech的另一大优势在于其无需修改基础模型即可扩展,支持多种应用场景,例如:通过LoRA实现任意语音情感控制;直接从文本描述合成音色特征,实现文本到语音(T2V);以及通过额外数据微调音色特征,进行专业语音克隆(PVC)。我们鼓励读者访问https://minimax-ai.github.io/tts_tech_report以获取更多示例。