MiniMax-Speech : Synthèse vocale intrinsèque en zero-shot avec un encodeur de locuteur apprenable
MiniMax-Speech: Intrinsic Zero-Shot Text-to-Speech with a Learnable Speaker Encoder
May 12, 2025
Auteurs: Bowen Zhang, Congchao Guo, Geng Yang, Hang Yu, Haozhe Zhang, Heidi Lei, Jialong Mai, Junjie Yan, Kaiyue Yang, Mingqi Yang, Peikai Huang, Ruiyang Jin, Sitan Jiang, Weihua Cheng, Yawei Li, Yichen Xiao, Yiying Zhou, Yongmao Zhang, Yuan Lu, Yucen He
cs.AI
Résumé
Nous présentons MiniMax-Speech, un modèle de synthèse vocale (Text-to-Speech, TTS) basé sur un Transformer autorégressif, capable de générer une parole de haute qualité. Une innovation clé réside dans notre encodeur de locuteur apprenable, qui extrait les caractéristiques de timbre à partir d'un audio de référence sans nécessiter sa transcription. Cela permet à MiniMax-Speech de produire une parole hautement expressive avec un timbre cohérent avec la référence de manière zero-shot, tout en supportant également le clonage vocal one-shot avec une similarité exceptionnellement élevée par rapport à la voix de référence. De plus, la qualité globale de l'audio synthétisé est améliorée grâce au Flow-VAE proposé. Notre modèle supporte 32 langues et démontre d'excellentes performances sur plusieurs métriques d'évaluation objectives et subjectives. Notamment, il atteint des résultats de pointe (state-of-the-art, SOTA) sur les métriques objectives de clonage vocal (taux d'erreur de mots et similarité de locuteur) et a obtenu la première place sur le classement public TTS Arena. Une autre force majeure de MiniMax-Speech, rendue possible par les représentations robustes et désentrelacées de l'encodeur de locuteur, est son extensibilité sans modification du modèle de base, permettant diverses applications telles que : le contrôle arbitraire des émotions vocales via LoRA ; la synthèse de voix à partir de texte (Text to Voice, T2V) en générant directement les caractéristiques de timbre à partir d'une description textuelle ; et le clonage vocal professionnel (Professional Voice Cloning, PVC) en affinant les caractéristiques de timbre avec des données supplémentaires. Nous encourageons les lecteurs à visiter https://minimax-ai.github.io/tts_tech_report pour plus d'exemples.
English
We introduce MiniMax-Speech, an autoregressive Transformer-based
Text-to-Speech (TTS) model that generates high-quality speech. A key innovation
is our learnable speaker encoder, which extracts timbre features from a
reference audio without requiring its transcription. This enables
MiniMax-Speech to produce highly expressive speech with timbre consistent with
the reference in a zero-shot manner, while also supporting one-shot voice
cloning with exceptionally high similarity to the reference voice. In addition,
the overall quality of the synthesized audio is enhanced through the proposed
Flow-VAE. Our model supports 32 languages and demonstrates excellent
performance across multiple objective and subjective evaluations metrics.
Notably, it achieves state-of-the-art (SOTA) results on objective voice cloning
metrics (Word Error Rate and Speaker Similarity) and has secured the top
position on the public TTS Arena leaderboard. Another key strength of
MiniMax-Speech, granted by the robust and disentangled representations from the
speaker encoder, is its extensibility without modifying the base model,
enabling various applications such as: arbitrary voice emotion control via
LoRA; text to voice (T2V) by synthesizing timbre features directly from text
description; and professional voice cloning (PVC) by fine-tuning timbre
features with additional data. We encourage readers to visit
https://minimax-ai.github.io/tts_tech_report for more examples.Summary
AI-Generated Summary