Relatório Técnico do Fish Audio S2
Fish Audio S2 Technical Report
March 9, 2026
Autores: Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei Han
cs.AI
Resumo
Apresentamos o Fish Audio S2, um sistema de conversão de texto em voz de código aberto que oferece geração multi-orador e multi-turno e, mais importante, controle por instrução através de descrições em linguagem natural. Para dimensionar o treinamento, desenvolvemos uma receita de treinamento multiestágio em conjunto com um pipeline de dados escalonado que abrange legendagem de vídeo e de fala, avaliação de qualidade vocal e modelagem por recompensa. Para expandir as fronteiras do TTS de código aberto, disponibilizamos nossos pesos de modelo, código de ajuste fino e um motor de inferência baseado em SGLang. O motor de inferência está pronto para produção em streaming, atingindo um RTF de 0,195 e um tempo para o primeiro áudio inferior a 100 ms. Nosso código e pesos estão disponíveis no GitHub (https://github.com/fishaudio/fish-speech) e no Hugging Face (https://huggingface.co/fishaudio/s2-pro). Incentivamos vivamente os leitores a visitar https://fish.audio para experimentar vozes personalizadas.
English
We introduce Fish Audio S2, an open-sourced text-to-speech system featuring multi-speaker, multi-turn generation, and, most importantly, instruction-following control via natural-language descriptions. To scale training, we develop a multi-stage training recipe together with a staged data pipeline covering video captioning and speech captioning, voice-quality assessment, and reward modeling. To push the frontier of open-source TTS, we release our model weights, fine-tuning code, and an SGLang-based inference engine. The inference engine is production-ready for streaming, achieving an RTF of 0.195 and a time-to-first-audio below 100 ms.Our code and weights are available on GitHub (https://github.com/fishaudio/fish-speech) and Hugging Face (https://huggingface.co/fishaudio/s2-pro). We highly encourage readers to visit https://fish.audio to try custom voices.