Relatório Técnico do Fish Audio S2

Resumo

Apresentamos o Fish Audio S2, um sistema de conversão de texto em voz de código aberto que oferece geração multi-orador e multi-turno e, mais importante, controle por instrução através de descrições em linguagem natural. Para dimensionar o treinamento, desenvolvemos uma receita de treinamento multiestágio em conjunto com um pipeline de dados escalonado que abrange legendagem de vídeo e de fala, avaliação de qualidade vocal e modelagem por recompensa. Para expandir as fronteiras do TTS de código aberto, disponibilizamos nossos pesos de modelo, código de ajuste fino e um motor de inferência baseado em SGLang. O motor de inferência está pronto para produção em streaming, atingindo um RTF de 0,195 e um tempo para o primeiro áudio inferior a 100 ms. Nosso código e pesos estão disponíveis no GitHub (https://github.com/fishaudio/fish-speech) e no Hugging Face (https://huggingface.co/fishaudio/s2-pro). Incentivamos vivamente os leitores a visitar https://fish.audio para experimentar vozes personalizadas.

English

We introduce Fish Audio S2, an open-sourced text-to-speech system featuring multi-speaker, multi-turn generation, and, most importantly, instruction-following control via natural-language descriptions. To scale training, we develop a multi-stage training recipe together with a staged data pipeline covering video captioning and speech captioning, voice-quality assessment, and reward modeling. To push the frontier of open-source TTS, we release our model weights, fine-tuning code, and an SGLang-based inference engine. The inference engine is production-ready for streaming, achieving an RTF of 0.195 and a time-to-first-audio below 100 ms.Our code and weights are available on GitHub (https://github.com/fishaudio/fish-speech) and Hugging Face (https://huggingface.co/fishaudio/s2-pro). We highly encourage readers to visit https://fish.audio to try custom voices.