ChatPaper.aiChatPaper

MiniMax-Speech: Sintesi Vocale Zero-Shot Intrinseca con un Codificatore di Parlante Apprendibile

MiniMax-Speech: Intrinsic Zero-Shot Text-to-Speech with a Learnable Speaker Encoder

May 12, 2025
Autori: Bowen Zhang, Congchao Guo, Geng Yang, Hang Yu, Haozhe Zhang, Heidi Lei, Jialong Mai, Junjie Yan, Kaiyue Yang, Mingqi Yang, Peikai Huang, Ruiyang Jin, Sitan Jiang, Weihua Cheng, Yawei Li, Yichen Xiao, Yiying Zhou, Yongmao Zhang, Yuan Lu, Yucen He
cs.AI

Abstract

Presentiamo MiniMax-Speech, un modello di sintesi vocale (Text-to-Speech, TTS) basato su Transformer autoregressivo che genera un parlato di alta qualità. Un'innovazione chiave è il nostro speaker encoder apprendibile, che estrae le caratteristiche timbriche da un audio di riferimento senza richiederne la trascrizione. Ciò consente a MiniMax-Speech di produrre un parlato altamente espressivo con un timbro coerente con il riferimento in modalità zero-shot, supportando anche il clonaggio vocale one-shot con una somiglianza eccezionalmente elevata rispetto alla voce di riferimento. Inoltre, la qualità complessiva dell'audio sintetizzato è migliorata grazie al Flow-VAE proposto. Il nostro modello supporta 32 lingue e dimostra prestazioni eccellenti su molteplici metriche di valutazione oggettive e soggettive. In particolare, raggiunge risultati all'avanguardia (state-of-the-art, SOTA) sulle metriche oggettive di clonaggio vocale (Word Error Rate e Speaker Similarity) e si è posizionato al primo posto nella classifica pubblica di TTS Arena. Un altro punto di forza di MiniMax-Speech, garantito dalle rappresentazioni robuste e disaccoppiate dello speaker encoder, è la sua estensibilità senza modificare il modello base, abilitando varie applicazioni come: il controllo arbitrario delle emozioni vocali tramite LoRA; la sintesi da testo a voce (Text to Voice, T2V) generando direttamente le caratteristiche timbriche da una descrizione testuale; e il clonaggio vocale professionale (Professional Voice Cloning, PVC) ottimizzando le caratteristiche timbriche con dati aggiuntivi. Invitiamo i lettori a visitare https://minimax-ai.github.io/tts_tech_report per ulteriori esempi.
English
We introduce MiniMax-Speech, an autoregressive Transformer-based Text-to-Speech (TTS) model that generates high-quality speech. A key innovation is our learnable speaker encoder, which extracts timbre features from a reference audio without requiring its transcription. This enables MiniMax-Speech to produce highly expressive speech with timbre consistent with the reference in a zero-shot manner, while also supporting one-shot voice cloning with exceptionally high similarity to the reference voice. In addition, the overall quality of the synthesized audio is enhanced through the proposed Flow-VAE. Our model supports 32 languages and demonstrates excellent performance across multiple objective and subjective evaluations metrics. Notably, it achieves state-of-the-art (SOTA) results on objective voice cloning metrics (Word Error Rate and Speaker Similarity) and has secured the top position on the public TTS Arena leaderboard. Another key strength of MiniMax-Speech, granted by the robust and disentangled representations from the speaker encoder, is its extensibility without modifying the base model, enabling various applications such as: arbitrary voice emotion control via LoRA; text to voice (T2V) by synthesizing timbre features directly from text description; and professional voice cloning (PVC) by fine-tuning timbre features with additional data. We encourage readers to visit https://minimax-ai.github.io/tts_tech_report for more examples.
PDF1244May 14, 2025