Informe Técnico de Fish Audio S2

Resumen

Presentamos Fish Audio S2, un sistema de texto a voz de código abierto que incluye generación multi-hablante y multi-turno y, lo más importante, control mediante instrucciones a través de descripciones en lenguaje natural. Para escalar el entrenamiento, desarrollamos una receta de entrenamiento multi-etapa junto con un pipeline de datos escalonado que abarca subtitulado de vídeo y subtitulado de voz, evaluación de calidad vocal y modelado de recompensas. Para impulsar la frontera del TTS de código abierto, publicamos nuestros pesos de modelo, código de ajuste fino y un motor de inferencia basado en SGLang. El motor de inferencia está listo para producción en streaming, logrando un RTF de 0.195 y un tiempo para el primer audio inferior a 100 ms. Nuestro código y pesos están disponibles en GitHub (https://github.com/fishaudio/fish-speech) y Hugging Face (https://huggingface.co/fishaudio/s2-pro). Recomendamos encarecidamente a los lectores que visiten https://fish.audio para probar voces personalizadas.

English

We introduce Fish Audio S2, an open-sourced text-to-speech system featuring multi-speaker, multi-turn generation, and, most importantly, instruction-following control via natural-language descriptions. To scale training, we develop a multi-stage training recipe together with a staged data pipeline covering video captioning and speech captioning, voice-quality assessment, and reward modeling. To push the frontier of open-source TTS, we release our model weights, fine-tuning code, and an SGLang-based inference engine. The inference engine is production-ready for streaming, achieving an RTF of 0.195 and a time-to-first-audio below 100 ms.Our code and weights are available on GitHub (https://github.com/fishaudio/fish-speech) and Hugging Face (https://huggingface.co/fishaudio/s2-pro). We highly encourage readers to visit https://fish.audio to try custom voices.

Informe Técnico de Fish Audio S2

Fish Audio S2 Technical Report

Resumen

Support