MiniMax-Speech: 학습 가능한 스피커 인코더를 갖춘 본질적 제로샷 텍스트-투-스피치
MiniMax-Speech: Intrinsic Zero-Shot Text-to-Speech with a Learnable Speaker Encoder
May 12, 2025
저자: Bowen Zhang, Congchao Guo, Geng Yang, Hang Yu, Haozhe Zhang, Heidi Lei, Jialong Mai, Junjie Yan, Kaiyue Yang, Mingqi Yang, Peikai Huang, Ruiyang Jin, Sitan Jiang, Weihua Cheng, Yawei Li, Yichen Xiao, Yiying Zhou, Yongmao Zhang, Yuan Lu, Yucen He
cs.AI
초록
우리는 고품질 음성을 생성하는 자회귀적 Transformer 기반의 텍스트-음성 변환(TTS) 모델인 MiniMax-Speech를 소개합니다. 주요 혁신은 학습 가능한 스피커 인코더로, 이는 참조 오디오에서 음색 특징을 추출할 때 전사본을 필요로 하지 않습니다. 이를 통해 MiniMax-Speech는 참조와 일관된 음색으로 매우 표현력 있는 음성을 제로샷 방식으로 생성할 수 있으며, 동시에 참조 음성과 매우 높은 유사성을 가진 원샷 보이스 클로닝도 지원합니다. 또한, 제안된 Flow-VAE를 통해 합성된 오디오의 전반적인 품질이 향상되었습니다. 우리의 모델은 32개 언어를 지원하며, 여러 객관적 및 주관적 평가 지표에서 우수한 성능을 보여줍니다. 특히, 객관적 보이스 클로닝 지표(단어 오류율 및 스피커 유사성)에서 최첨단(SOTA) 결과를 달성했으며, 공개 TTS Arena 리더보드에서도 1위를 차지했습니다. MiniMax-Speech의 또 다른 주요 강점은 스피커 인코더로부터 얻은 견고하고 분리된 표현 덕분에 기본 모델을 수정하지 않고도 확장성이 뛰어나다는 점입니다. 이를 통해 LoRA를 통한 임의의 음성 감정 제어, 텍스트 설명에서 직접 음색 특징을 합성하는 텍스트-음성(T2V), 추가 데이터를 사용하여 음색 특징을 미세 조정하는 전문가용 보이스 클로닝(PVC)과 같은 다양한 응용이 가능합니다. 더 많은 예시를 보려면 https://minimax-ai.github.io/tts_tech_report를 방문해 주시기 바랍니다.
English
We introduce MiniMax-Speech, an autoregressive Transformer-based
Text-to-Speech (TTS) model that generates high-quality speech. A key innovation
is our learnable speaker encoder, which extracts timbre features from a
reference audio without requiring its transcription. This enables
MiniMax-Speech to produce highly expressive speech with timbre consistent with
the reference in a zero-shot manner, while also supporting one-shot voice
cloning with exceptionally high similarity to the reference voice. In addition,
the overall quality of the synthesized audio is enhanced through the proposed
Flow-VAE. Our model supports 32 languages and demonstrates excellent
performance across multiple objective and subjective evaluations metrics.
Notably, it achieves state-of-the-art (SOTA) results on objective voice cloning
metrics (Word Error Rate and Speaker Similarity) and has secured the top
position on the public TTS Arena leaderboard. Another key strength of
MiniMax-Speech, granted by the robust and disentangled representations from the
speaker encoder, is its extensibility without modifying the base model,
enabling various applications such as: arbitrary voice emotion control via
LoRA; text to voice (T2V) by synthesizing timbre features directly from text
description; and professional voice cloning (PVC) by fine-tuning timbre
features with additional data. We encourage readers to visit
https://minimax-ai.github.io/tts_tech_report for more examples.