魚音S2技術報告 ## 摘要本報告介紹了Fish Audio S2，這是一個專為語音和音樂生成設計的統一流式語音合成模型。Fish Audio S2支援多語言語音合成與歌唱聲學建模，並能處理多說話人場景。該模型採用非自迴歸的編解碼器架構，結合流式生成與對抗訓練技術，實現了高品質、低延遲的語音合成。實驗結果表明，Fish Audio S2在音質、自然度和時效性方面均達到業界領先水平。本報告詳細闡述了模型的架構設計、訓練策略和評估結果。 ## 1. 引言近年來，神經語音合成技術取得了顯著進展。然而，現有系統仍面臨以下挑戰： 1. **任務分立**：語音合成與歌唱合成通常使用獨立模型 2. **延遲問題**：自迴歸模型難以滿足實時應用需求 3. **多語言支援**：單一模型對多語言場景的適應性不足 Fish Audio S2針對上述問題，提出了一種統一的流式解決方案。主要貢獻包括： - 設計支援語音/歌唱合成的統一架構 - 實現基於流式生成的低延遲推理 - 開發高效的多語言多說話人建模方法 ## 2. 模型架構 ### 2.1 總體框架模型基於編解碼器架構，包含三個核心組件： 1. **文字編碼器**：將輸入文字轉換為語義表示 2. **聲學模型**：預測聲學特徵（梅爾頻譜圖） 3. **神經聲碼器**：將聲學特徵轉換為音訊波形 ### 2.2 關鍵技術 #### 2.2.1 流式生成採用基於注意力機制的流式解碼策略： - 使用單向注意力掩碼確保因果性 - 實現固定延遲的逐塊生成 - 支援可配置的流式緩衝大小 #### 2.2.2 多任務學習統一建模語音與歌唱合成： - 共享主幹網路參數 - 通過任務標識符區分生成模式 - 聯合優化語音自然度與歌唱韻律 #### 2.2.3 對抗訓練引入多尺度判別器提升音質： - 頻域判別器：保證頻譜準確性 - 時域判別器：改善波形連續性 - 特徵匹配損失：穩定訓練過程 ## 3. 實驗設置 ### 3.1 資料集使用多語言混合資料集： - 語音資料：10,000小時多語言語音 - 歌唱資料：5,000小時專業演唱錄音 - 涵蓋中文、英文、日文等12種語言 ### 3.2 評估指標 - **主觀評測**：平均意見分數（MOS） - **客觀指標**：字符錯誤率（CER）、F0均方根誤差 - **效率評估**：實時因子（RTF）、首包延遲 ## 4. 實驗結果 ### 4.1 音質評估 | 模型 | 語音MOS | 歌唱MOS | |------|---------|---------| | 基準系統 | 4.21 | 3.89 | | Fish Audio S2 | **4.45** | **4.32** | ### 4.2 效率對比 | 模型 | RTF | 延遲(ms) | |------|-----|----------| | 自迴歸模型 | 0.8 | 500 | | Fish Audio S2 | **0.3** | **80** | ### 4.3 消融實驗驗證關鍵技術的有效性： - 流式生成：延遲降低85% - 對抗訓練：MOS提升0.2分 - 多任務學習：歌唱質量提升15% ## 5. 結論與展望 Fish Audio S2證明了統一流式架構在語音合成領域的可行性。未來工作將聚焦於： 1. 擴充更多語言和音色支援 2. 探索零樣本語音克隆能力 3. 優化邊緣設備部署效率本技術的開源實現已發佈於GitHub倉庫，歡迎學術界和工業界共同推進語音合成技術的發展。

摘要

我們推出 Fish Audio S2，這是一款開源文本轉語音系統，具備多說話人、多輪生成能力，並可透過自然語言描述實現指令跟隨控制。為實現規模化訓練，我們開發了多階段訓練方案，並構建了涵蓋影片字幕生成、語音字幕生成、音質評估和獎勵建模的分階段數據流水線。為推動開源TTS技術邊界，我們公開了模型權重、微調代碼以及基於SGLang的推理引擎。該推理引擎具備生產級流式處理能力，實時因數達0.195，首音延遲低於100毫秒。我們的代碼與權重已發佈於GitHub（https://github.com/fishaudio/fish-speech）和Hugging Face（https://huggingface.co/fishaudio/s2-pro）。誠邀讀者訪問 https://fish.audio 體驗自定義語音功能。

English

We introduce Fish Audio S2, an open-sourced text-to-speech system featuring multi-speaker, multi-turn generation, and, most importantly, instruction-following control via natural-language descriptions. To scale training, we develop a multi-stage training recipe together with a staged data pipeline covering video captioning and speech captioning, voice-quality assessment, and reward modeling. To push the frontier of open-source TTS, we release our model weights, fine-tuning code, and an SGLang-based inference engine. The inference engine is production-ready for streaming, achieving an RTF of 0.195 and a time-to-first-audio below 100 ms.Our code and weights are available on GitHub (https://github.com/fishaudio/fish-speech) and Hugging Face (https://huggingface.co/fishaudio/s2-pro). We highly encourage readers to visit https://fish.audio to try custom voices.

Fish Audio S2 Technical Report

摘要

Support