ChatPaper.aiChatPaper

Rapporto Tecnico di Fish Audio S2

Fish Audio S2 Technical Report

March 9, 2026
Autori: Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei Han
cs.AI

Abstract

Introduciamo Fish Audio S2, un sistema text-to-speech open source che offre generazione multi-speaker e multi-turn e, aspetto fondamentale, un controllo basato sull'adesione a istruzioni tramite descrizioni in linguaggio naturale. Per scalare l'addestramento, abbiamo sviluppato una procedura di training multi-stadio insieme a una pipeline di dati articolata che comprende captioning video e captioning vocale, valutazione della qualità della voce e modellazione di reward. Per spingere oltre le frontiere del TTS open source, rilasciamo i pesi del nostro modello, il codice per il fine-tuning e un motore di inferenza basato su SGLang. Il motore di inferenza è pronto per la produzione in modalità streaming, raggiungendo un RTF di 0.195 e un tempo per il primo audio inferiore a 100 ms. Il nostro codice e i pesi sono disponibili su GitHub (https://github.com/fishaudio/fish-speech) e Hugging Face (https://huggingface.co/fishaudio/s2-pro). Incoraggiamo vivamente i lettori a visitare https://fish.audio per provare voci personalizzate.
English
We introduce Fish Audio S2, an open-sourced text-to-speech system featuring multi-speaker, multi-turn generation, and, most importantly, instruction-following control via natural-language descriptions. To scale training, we develop a multi-stage training recipe together with a staged data pipeline covering video captioning and speech captioning, voice-quality assessment, and reward modeling. To push the frontier of open-source TTS, we release our model weights, fine-tuning code, and an SGLang-based inference engine. The inference engine is production-ready for streaming, achieving an RTF of 0.195 and a time-to-first-audio below 100 ms.Our code and weights are available on GitHub (https://github.com/fishaudio/fish-speech) and Hugging Face (https://huggingface.co/fishaudio/s2-pro). We highly encourage readers to visit https://fish.audio to try custom voices.
PDF362March 26, 2026