SoulX-Singer: Verso una Sintesi Vocale Cantata Zero-Shot di Alta Qualità
SoulX-Singer: Towards High-Quality Zero-Shot Singing Voice Synthesis
February 8, 2026
Autori: Jiale Qian, Hao Meng, Tian Zheng, Pengcheng Zhu, Haopeng Lin, Yuhang Dai, Hanke Xie, Wenxiao Cao, Ruixuan Shang, Jun Wu, Hongmei Liu, Hanlin Wen, Jian Zhao, Zhonglin Jiang, Yong Chen, Shunshun Yin, Ming Tao, Jianguo Wei, Lei Xie, Xinsheng Wang
cs.AI
Abstract
Sebbene gli ultimi anni abbiano assistito a rapidi progressi nella sintesi vocale, i sistemi open-source per la sintesi della voce cantata (SVS) devono ancora affrontare ostacoli significativi per la diffusione industriale, in particolare in termini di robustezza e generalizzazione zero-shot. In questo rapporto presentiamo SoulX-Singer, un sistema SVS open-source di alta qualità progettato tenendo conto delle esigenze di deployment pratico. SoulX-Singer supporta la generazione controllata del canto condizionata da spartiti musicali simbolici (MIDI) o rappresentazioni melodiche, consentendo un controllo flessibile ed espressivo nei flussi di lavoro produttivi reali. Addestrato su oltre 42.000 ore di dati vocali, il sistema supporta il cinese mandarino, l'inglese e il cantonese e raggiunge costantemente una qualità di sintesi allo stato dell'arte in tutte le lingue in diverse condizioni musicali. Inoltre, per consentire una valutazione affidabile delle prestazioni zero-shot degli SVS in scenari pratici, abbiamo creato SoulX-Singer-Eval, un benchmark dedicato con una rigorosa separazione tra dati di addestramento e test, che facilita una valutazione sistematica in contesti zero-shot.
English
While recent years have witnessed rapid progress in speech synthesis, open-source singing voice synthesis (SVS) systems still face significant barriers to industrial deployment, particularly in terms of robustness and zero-shot generalization. In this report, we introduce SoulX-Singer, a high-quality open-source SVS system designed with practical deployment considerations in mind. SoulX-Singer supports controllable singing generation conditioned on either symbolic musical scores (MIDI) or melodic representations, enabling flexible and expressive control in real-world production workflows. Trained on more than 42,000 hours of vocal data, the system supports Mandarin Chinese, English, and Cantonese and consistently achieves state-of-the-art synthesis quality across languages under diverse musical conditions. Furthermore, to enable reliable evaluation of zero-shot SVS performance in practical scenarios, we construct SoulX-Singer-Eval, a dedicated benchmark with strict training-test disentanglement, facilitating systematic assessment in zero-shot settings.