Технический отчет Fish Audio S2

Аннотация

Мы представляем Fish Audio S2 — систему преобразования текста в речь с открытым исходным кодом, которая поддерживает генерацию речи для нескольких дикторов, многорепликовые диалоги и, что наиболее важно, управление через инструкции на естественном языке. Для масштабирования обучения мы разработали многоэтапный рецепт обучения вместе с поэтапным конвейером обработки данных, включающим создание субтитров для видео и речевых описаний, оценку качества голоса и моделирование вознаграждения. Чтобы расширить границы открытых TTS-систем, мы публикуем веса нашей модели, код для дообучения и механизм вывода на основе SGLang. Механизм вывода готов к промышленному использованию в потоковом режиме, обеспечивая RTF 0,195 и задержку до первого аудиосигнала менее 100 мс. Наш код и веса доступны на GitHub (https://github.com/fishaudio/fish-speech) и Hugging Face (https://huggingface.co/fishaudio/s2-pro). Мы настоятельно рекомендуем читателям посетить https://fish.audio, чтобы опробовать создание пользовательских голосов.

English

We introduce Fish Audio S2, an open-sourced text-to-speech system featuring multi-speaker, multi-turn generation, and, most importantly, instruction-following control via natural-language descriptions. To scale training, we develop a multi-stage training recipe together with a staged data pipeline covering video captioning and speech captioning, voice-quality assessment, and reward modeling. To push the frontier of open-source TTS, we release our model weights, fine-tuning code, and an SGLang-based inference engine. The inference engine is production-ready for streaming, achieving an RTF of 0.195 and a time-to-first-audio below 100 ms.Our code and weights are available on GitHub (https://github.com/fishaudio/fish-speech) and Hugging Face (https://huggingface.co/fishaudio/s2-pro). We highly encourage readers to visit https://fish.audio to try custom voices.

Технический отчет Fish Audio S2

Fish Audio S2 Technical Report

Аннотация

Support