SoulX-Singer: Verso una Sintesi Vocale Cantata Zero-Shot di Alta Qualità

Abstract

Sebbene gli ultimi anni abbiano assistito a rapidi progressi nella sintesi vocale, i sistemi open-source per la sintesi della voce cantata (SVS) devono ancora affrontare ostacoli significativi per la diffusione industriale, in particolare in termini di robustezza e generalizzazione zero-shot. In questo rapporto presentiamo SoulX-Singer, un sistema SVS open-source di alta qualità progettato tenendo conto delle esigenze di deployment pratico. SoulX-Singer supporta la generazione controllata del canto condizionata da spartiti musicali simbolici (MIDI) o rappresentazioni melodiche, consentendo un controllo flessibile ed espressivo nei flussi di lavoro produttivi reali. Addestrato su oltre 42.000 ore di dati vocali, il sistema supporta il cinese mandarino, l'inglese e il cantonese e raggiunge costantemente una qualità di sintesi allo stato dell'arte in tutte le lingue in diverse condizioni musicali. Inoltre, per consentire una valutazione affidabile delle prestazioni zero-shot degli SVS in scenari pratici, abbiamo creato SoulX-Singer-Eval, un benchmark dedicato con una rigorosa separazione tra dati di addestramento e test, che facilita una valutazione sistematica in contesti zero-shot.

English

While recent years have witnessed rapid progress in speech synthesis, open-source singing voice synthesis (SVS) systems still face significant barriers to industrial deployment, particularly in terms of robustness and zero-shot generalization. In this report, we introduce SoulX-Singer, a high-quality open-source SVS system designed with practical deployment considerations in mind. SoulX-Singer supports controllable singing generation conditioned on either symbolic musical scores (MIDI) or melodic representations, enabling flexible and expressive control in real-world production workflows. Trained on more than 42,000 hours of vocal data, the system supports Mandarin Chinese, English, and Cantonese and consistently achieves state-of-the-art synthesis quality across languages under diverse musical conditions. Furthermore, to enable reliable evaluation of zero-shot SVS performance in practical scenarios, we construct SoulX-Singer-Eval, a dedicated benchmark with strict training-test disentanglement, facilitating systematic assessment in zero-shot settings.

SoulX-Singer: Verso una Sintesi Vocale Cantata Zero-Shot di Alta Qualità

SoulX-Singer: Towards High-Quality Zero-Shot Singing Voice Synthesis

Abstract

Support