SoulX-Singer: Rumo à Síntese de Voz Cantada de Alta Qualidade com Zero-Shot
SoulX-Singer: Towards High-Quality Zero-Shot Singing Voice Synthesis
February 8, 2026
Autores: Jiale Qian, Hao Meng, Tian Zheng, Pengcheng Zhu, Haopeng Lin, Yuhang Dai, Hanke Xie, Wenxiao Cao, Ruixuan Shang, Jun Wu, Hongmei Liu, Hanlin Wen, Jian Zhao, Zhonglin Jiang, Yong Chen, Shunshun Yin, Ming Tao, Jianguo Wei, Lei Xie, Xinsheng Wang
cs.AI
Resumo
Embora os últimos anos tenham testemunhado progressos rápidos na síntese de voz, os sistemas de síntese de voz cantada (SVC) de código aberto ainda enfrentam barreiras significativas para a implantação industrial, particularmente em termos de robustez e generalização zero-shot. Neste relatório, apresentamos o SoulX-Singer, um sistema de SVC de código aberto de alta qualidade projetado com considerações práticas de implantação em mente. O SoulX-Singer suporta geração de canto controlada condicionada a partituras musicais simbólicas (MIDI) ou representações melódicas, permitindo um controle flexível e expressivo em fluxos de trabalho de produção do mundo real. Treinado com mais de 42.000 horas de dados vocais, o sistema suporta mandarim, inglês e cantonês e alcança consistentemente qualidade de síntese state-of-the-art entre os idiomas sob diversas condições musicais. Além disso, para permitir uma avaliação confiável do desempenho de SVC zero-shot em cenários práticos, construímos o SoulX-Singer-Eval, um benchmark dedicado com estrito desacoplamento treinamento-teste, facilitando a avaliação sistemática em configurações zero-shot.
English
While recent years have witnessed rapid progress in speech synthesis, open-source singing voice synthesis (SVS) systems still face significant barriers to industrial deployment, particularly in terms of robustness and zero-shot generalization. In this report, we introduce SoulX-Singer, a high-quality open-source SVS system designed with practical deployment considerations in mind. SoulX-Singer supports controllable singing generation conditioned on either symbolic musical scores (MIDI) or melodic representations, enabling flexible and expressive control in real-world production workflows. Trained on more than 42,000 hours of vocal data, the system supports Mandarin Chinese, English, and Cantonese and consistently achieves state-of-the-art synthesis quality across languages under diverse musical conditions. Furthermore, to enable reliable evaluation of zero-shot SVS performance in practical scenarios, we construct SoulX-Singer-Eval, a dedicated benchmark with strict training-test disentanglement, facilitating systematic assessment in zero-shot settings.