Technisch Rapport Fish Audio S2

Samenvatting

Wij introduceren Fish Audio S2, een open-source tekst-naar-spraaksysteem met multi-speaker- en multi-turn-generatie, en, vooral belangrijk, aansturing via instructievolging door middel van natuurlijke-taalbeschrijvingen. Om de training op te schalen, ontwikkelden we een meerfasig trainingsrecept samen met een gefaseerde datapijplijn die videobeschrijving, spraakbeschrijving, beoordeling van stemkwaliteit en reward modeling omvat. Om de grenzen van open-source TTS te verleggen, geven wij onze modelgewichten, fine-tuningcode en een op SGLang gebaseerde inference-engine vrij. De inference-engine is productieklaar voor streaming, met een RTF van 0.195 en een tijd-tot-eerste-audio van minder dan 100 ms. Onze code en gewichten zijn beschikbaar op GitHub (https://github.com/fishaudio/fish-speech) en Hugging Face (https://huggingface.co/fishaudio/s2-pro). Wij raden lezers ten zeerste aan om https://fish.audio te bezoeken om aangepaste stemmen uit te proberen.

English

We introduce Fish Audio S2, an open-sourced text-to-speech system featuring multi-speaker, multi-turn generation, and, most importantly, instruction-following control via natural-language descriptions. To scale training, we develop a multi-stage training recipe together with a staged data pipeline covering video captioning and speech captioning, voice-quality assessment, and reward modeling. To push the frontier of open-source TTS, we release our model weights, fine-tuning code, and an SGLang-based inference engine. The inference engine is production-ready for streaming, achieving an RTF of 0.195 and a time-to-first-audio below 100 ms.Our code and weights are available on GitHub (https://github.com/fishaudio/fish-speech) and Hugging Face (https://huggingface.co/fishaudio/s2-pro). We highly encourage readers to visit https://fish.audio to try custom voices.

Technisch Rapport Fish Audio S2

Fish Audio S2 Technical Report

Samenvatting

Support