Rapporto Tecnico di Fish Audio S2

Abstract

Introduciamo Fish Audio S2, un sistema text-to-speech open source che offre generazione multi-speaker e multi-turn e, aspetto fondamentale, un controllo basato sull'adesione a istruzioni tramite descrizioni in linguaggio naturale. Per scalare l'addestramento, abbiamo sviluppato una procedura di training multi-stadio insieme a una pipeline di dati articolata che comprende captioning video e captioning vocale, valutazione della qualità della voce e modellazione di reward. Per spingere oltre le frontiere del TTS open source, rilasciamo i pesi del nostro modello, il codice per il fine-tuning e un motore di inferenza basato su SGLang. Il motore di inferenza è pronto per la produzione in modalità streaming, raggiungendo un RTF di 0.195 e un tempo per il primo audio inferiore a 100 ms. Il nostro codice e i pesi sono disponibili su GitHub (https://github.com/fishaudio/fish-speech) e Hugging Face (https://huggingface.co/fishaudio/s2-pro). Incoraggiamo vivamente i lettori a visitare https://fish.audio per provare voci personalizzate.

English

We introduce Fish Audio S2, an open-sourced text-to-speech system featuring multi-speaker, multi-turn generation, and, most importantly, instruction-following control via natural-language descriptions. To scale training, we develop a multi-stage training recipe together with a staged data pipeline covering video captioning and speech captioning, voice-quality assessment, and reward modeling. To push the frontier of open-source TTS, we release our model weights, fine-tuning code, and an SGLang-based inference engine. The inference engine is production-ready for streaming, achieving an RTF of 0.195 and a time-to-first-audio below 100 ms.Our code and weights are available on GitHub (https://github.com/fishaudio/fish-speech) and Hugging Face (https://huggingface.co/fishaudio/s2-pro). We highly encourage readers to visit https://fish.audio to try custom voices.

Rapporto Tecnico di Fish Audio S2

Fish Audio S2 Technical Report

Abstract

Support