SoulX-Singer: Rumo à Síntese de Voz Cantada de Alta Qualidade com Zero-Shot

Resumo

Embora os últimos anos tenham testemunhado progressos rápidos na síntese de voz, os sistemas de síntese de voz cantada (SVC) de código aberto ainda enfrentam barreiras significativas para a implantação industrial, particularmente em termos de robustez e generalização zero-shot. Neste relatório, apresentamos o SoulX-Singer, um sistema de SVC de código aberto de alta qualidade projetado com considerações práticas de implantação em mente. O SoulX-Singer suporta geração de canto controlada condicionada a partituras musicais simbólicas (MIDI) ou representações melódicas, permitindo um controle flexível e expressivo em fluxos de trabalho de produção do mundo real. Treinado com mais de 42.000 horas de dados vocais, o sistema suporta mandarim, inglês e cantonês e alcança consistentemente qualidade de síntese state-of-the-art entre os idiomas sob diversas condições musicais. Além disso, para permitir uma avaliação confiável do desempenho de SVC zero-shot em cenários práticos, construímos o SoulX-Singer-Eval, um benchmark dedicado com estrito desacoplamento treinamento-teste, facilitando a avaliação sistemática em configurações zero-shot.

English

While recent years have witnessed rapid progress in speech synthesis, open-source singing voice synthesis (SVS) systems still face significant barriers to industrial deployment, particularly in terms of robustness and zero-shot generalization. In this report, we introduce SoulX-Singer, a high-quality open-source SVS system designed with practical deployment considerations in mind. SoulX-Singer supports controllable singing generation conditioned on either symbolic musical scores (MIDI) or melodic representations, enabling flexible and expressive control in real-world production workflows. Trained on more than 42,000 hours of vocal data, the system supports Mandarin Chinese, English, and Cantonese and consistently achieves state-of-the-art synthesis quality across languages under diverse musical conditions. Furthermore, to enable reliable evaluation of zero-shot SVS performance in practical scenarios, we construct SoulX-Singer-Eval, a dedicated benchmark with strict training-test disentanglement, facilitating systematic assessment in zero-shot settings.