MiniMax-Speech : Synthèse vocale intrinsèque en zero-shot avec un encodeur de locuteur apprenableMiniMax-Speech: Intrinsic Zero-Shot Text-to-Speech with a Learnable
Speaker Encoder
Nous présentons MiniMax-Speech, un modèle de synthèse vocale (Text-to-Speech, TTS) basé sur un Transformer autorégressif, capable de générer une parole de haute qualité. Une innovation clé réside dans notre encodeur de locuteur apprenable, qui extrait les caractéristiques de timbre à partir d'un audio de référence sans nécessiter sa transcription. Cela permet à MiniMax-Speech de produire une parole hautement expressive avec un timbre cohérent avec la référence de manière zero-shot, tout en supportant également le clonage vocal one-shot avec une similarité exceptionnellement élevée par rapport à la voix de référence. De plus, la qualité globale de l'audio synthétisé est améliorée grâce au Flow-VAE proposé. Notre modèle supporte 32 langues et démontre d'excellentes performances sur plusieurs métriques d'évaluation objectives et subjectives. Notamment, il atteint des résultats de pointe (state-of-the-art, SOTA) sur les métriques objectives de clonage vocal (taux d'erreur de mots et similarité de locuteur) et a obtenu la première place sur le classement public TTS Arena. Une autre force majeure de MiniMax-Speech, rendue possible par les représentations robustes et désentrelacées de l'encodeur de locuteur, est son extensibilité sans modification du modèle de base, permettant diverses applications telles que : le contrôle arbitraire des émotions vocales via LoRA ; la synthèse de voix à partir de texte (Text to Voice, T2V) en générant directement les caractéristiques de timbre à partir d'une description textuelle ; et le clonage vocal professionnel (Professional Voice Cloning, PVC) en affinant les caractéristiques de timbre avec des données supplémentaires. Nous encourageons les lecteurs à visiter https://minimax-ai.github.io/tts_tech_report pour plus d'exemples.