SoulX-Singer : Vers une synthèse de voix chantée de haute qualité en mode zéro-shot

Résumé

Si les dernières années ont connu des progrès rapides en synthèse vocale, les systèmes open-source de synthèse de voix chantée (SVC) rencontrent encore d'importants obstacles pour un déploiement industriel, notamment en termes de robustesse et de généralisation zero-shot. Dans ce rapport, nous présentons SoulX-Singer, un système open-source de SVC de haute qualité conçu en tenant compte des impératifs de déploiement pratique. SoulX-Singer prend en charge la génération contrôlée du chant conditionnée soit par des partitions musicales symboliques (MIDI), soit par des représentations mélodiques, permettant un contrôle flexible et expressif dans les workflows de production réels. Entraîné sur plus de 42 000 heures de données vocales, le système prend en charge le mandarin, l'anglais et le cantonais, et obtient systématiquement une qualité de synthèse à la pointe de l'état de l'art across languages dans diverses conditions musicales. Par ailleurs, pour permettre une évaluation fiable des performances zero-shot de la SVC dans des scénarios pratiques, nous avons constitué SoulX-Singer-Eval, un benchmark dédié avec une stricte séparation apprentissage-test, facilitant l'évaluation systématique en settings zero-shot.

English

While recent years have witnessed rapid progress in speech synthesis, open-source singing voice synthesis (SVS) systems still face significant barriers to industrial deployment, particularly in terms of robustness and zero-shot generalization. In this report, we introduce SoulX-Singer, a high-quality open-source SVS system designed with practical deployment considerations in mind. SoulX-Singer supports controllable singing generation conditioned on either symbolic musical scores (MIDI) or melodic representations, enabling flexible and expressive control in real-world production workflows. Trained on more than 42,000 hours of vocal data, the system supports Mandarin Chinese, English, and Cantonese and consistently achieves state-of-the-art synthesis quality across languages under diverse musical conditions. Furthermore, to enable reliable evaluation of zero-shot SVS performance in practical scenarios, we construct SoulX-Singer-Eval, a dedicated benchmark with strict training-test disentanglement, facilitating systematic assessment in zero-shot settings.

SoulX-Singer : Vers une synthèse de voix chantée de haute qualité en mode zéro-shot

SoulX-Singer: Towards High-Quality Zero-Shot Singing Voice Synthesis

Résumé

Support