MiniMax-Speech: Внутренний Zero-Shot Синтез Речи с Обучаемым Кодировщиком ДиктораMiniMax-Speech: Intrinsic Zero-Shot Text-to-Speech with a Learnable
Speaker Encoder
Представляем MiniMax-Speech — авторегрессивную модель преобразования текста в речь (Text-to-Speech, TTS) на основе архитектуры Transformer, которая генерирует высококачественную речь. Ключевым нововведением является наш обучаемый кодировщик говорящего, который извлекает тембральные характеристики из эталонного аудио без необходимости его транскрипции. Это позволяет MiniMax-Speech создавать выразительную речь с тембром, согласованным с эталоном, в режиме zero-shot, а также поддерживает клонирование голоса в режиме one-shot с исключительно высокой степенью сходства с эталонным голосом. Кроме того, общее качество синтезированного аудио улучшено благодаря предложенному Flow-VAE. Наша модель поддерживает 32 языка и демонстрирует превосходные результаты по множеству объективных и субъективных метрик оценки. В частности, она достигает наилучших результатов (state-of-the-art, SOTA) по объективным метрикам клонирования голоса (Word Error Rate и Speaker Similarity) и занимает лидирующую позицию в публичном рейтинге TTS Arena. Еще одним ключевым преимуществом MiniMax-Speech, обеспечиваемым устойчивыми и разделяемыми представлениями из кодировщика говорящего, является её расширяемость без изменения базовой модели, что позволяет реализовать различные приложения, такие как: произвольное управление эмоциями голоса через LoRA; преобразование текста в голос (Text to Voice, T2V) путем синтеза тембральных характеристик непосредственно из текстового описания; и профессиональное клонирование голоса (Professional Voice Cloning, PVC) путем тонкой настройки тембральных характеристик с использованием дополнительных данных. Мы рекомендуем читателям посетить https://minimax-ai.github.io/tts_tech_report для ознакомления с дополнительными примерами.