MiniMax-Speech: 학습 가능한 스피커 인코더를 갖춘 본질적 제로샷 텍스트-투-스피치MiniMax-Speech: Intrinsic Zero-Shot Text-to-Speech with a Learnable
Speaker Encoder
우리는 고품질 음성을 생성하는 자회귀적 Transformer 기반의 텍스트-음성 변환(TTS) 모델인 MiniMax-Speech를 소개합니다. 주요 혁신은 학습 가능한 스피커 인코더로, 이는 참조 오디오에서 음색 특징을 추출할 때 전사본을 필요로 하지 않습니다. 이를 통해 MiniMax-Speech는 참조와 일관된 음색으로 매우 표현력 있는 음성을 제로샷 방식으로 생성할 수 있으며, 동시에 참조 음성과 매우 높은 유사성을 가진 원샷 보이스 클로닝도 지원합니다. 또한, 제안된 Flow-VAE를 통해 합성된 오디오의 전반적인 품질이 향상되었습니다. 우리의 모델은 32개 언어를 지원하며, 여러 객관적 및 주관적 평가 지표에서 우수한 성능을 보여줍니다. 특히, 객관적 보이스 클로닝 지표(단어 오류율 및 스피커 유사성)에서 최첨단(SOTA) 결과를 달성했으며, 공개 TTS Arena 리더보드에서도 1위를 차지했습니다. MiniMax-Speech의 또 다른 주요 강점은 스피커 인코더로부터 얻은 견고하고 분리된 표현 덕분에 기본 모델을 수정하지 않고도 확장성이 뛰어나다는 점입니다. 이를 통해 LoRA를 통한 임의의 음성 감정 제어, 텍스트 설명에서 직접 음색 특징을 합성하는 텍스트-음성(T2V), 추가 데이터를 사용하여 음색 특징을 미세 조정하는 전문가용 보이스 클로닝(PVC)과 같은 다양한 응용이 가능합니다. 더 많은 예시를 보려면 https://minimax-ai.github.io/tts_tech_report를 방문해 주시기 바랍니다.