MiniMax-Speech: Intrinsisches Zero-Shot Text-to-Speech mit einem lernfähigen Sprecher-EncoderMiniMax-Speech: Intrinsic Zero-Shot Text-to-Speech with a Learnable
Speaker Encoder
Wir stellen MiniMax-Speech vor, ein autoregressives, Transformer-basiertes Text-to-Speech (TTS)-Modell, das hochwertige Sprache erzeugt. Eine zentrale Innovation ist unser lernbarer Sprecher-Encoder, der Timbre-Merkmale aus einem Referenzaudio extrahiert, ohne dessen Transkription zu benötigen. Dies ermöglicht es MiniMax-Speech, ausdrucksstarke Sprache mit einem dem Referenzaudio konsistenten Timbre in einem Zero-Shot-Verfahren zu erzeugen, während es gleichzeitig One-Shot-Stimmenklonung mit außergewöhnlich hoher Ähnlichkeit zur Referenzstimme unterstützt. Darüber hinaus wird die Gesamtqualität des synthetisierten Audios durch den vorgeschlagenen Flow-VAE verbessert. Unser Modell unterstützt 32 Sprachen und zeigt hervorragende Leistungen in mehreren objektiven und subjektiven Bewertungsmetriken. Insbesondere erzielt es state-of-the-art (SOTA)-Ergebnisse bei objektiven Metriken zur Stimmenklonung (Wortfehlerrate und Sprecherähnlichkeit) und hat die Spitzenposition auf der öffentlichen TTS Arena-Rangliste erreicht. Eine weitere Stärke von MiniMax-Speech, die durch die robusten und entflochtenen Repräsentationen des Sprecher-Encors ermöglicht wird, ist seine Erweiterbarkeit ohne Änderungen am Basismodell, was verschiedene Anwendungen ermöglicht, wie z.B.: beliebige Stimmungssteuerung via LoRA; Text-zu-Stimme (T2V) durch die Synthese von Timbre-Merkmalen direkt aus einer Textbeschreibung; und professionelle Stimmenklonung (PVC) durch Feinabstimmung der Timbre-Merkmale mit zusätzlichen Daten. Wir ermutigen die Leser, https://minimax-ai.github.io/tts_tech_report für weitere Beispiele zu besuchen.