SoulX-Singer: Auf dem Weg zur hochwertigen Stimmensynthese ohne Vorab-Anpassung
SoulX-Singer: Towards High-Quality Zero-Shot Singing Voice Synthesis
February 8, 2026
papers.authors: Jiale Qian, Hao Meng, Tian Zheng, Pengcheng Zhu, Haopeng Lin, Yuhang Dai, Hanke Xie, Wenxiao Cao, Ruixuan Shang, Jun Wu, Hongmei Liu, Hanlin Wen, Jian Zhao, Zhonglin Jiang, Yong Chen, Shunshun Yin, Ming Tao, Jianguo Wei, Lei Xie, Xinsheng Wang
cs.AI
papers.abstract
Während die Sprachsynthese in den letzten Jahren rasante Fortschritte verzeichnet hat, stehen quelloffene Systeme zur Gesangssynthese (Singing Voice Synthesis, SVS) vor erheblichen Hindernissen für den industriellen Einsatz, insbesondere in Bezug auf Robustheit und Zero-Shot-Generalisierung. In diesem Bericht stellen wir SoulX-Singer vor, ein hochwertiges, quelloffenes SVS-System, das unter praktischen Gesichtspunkten für den Einsatz konzipiert wurde. SoulX-Singer unterstützt eine kontrollierbare Gesangserzeugung auf Basis either symbolischer Noten (MIDI) oder melodischer Repräsentationen und ermöglicht so eine flexible und ausdrucksstarke Steuerung in realen Produktionsworkflows. Das System, das mit mehr als 42.000 Stunden Stimmdaten trainiert wurde, unterstützt Mandarin-Chinesisch, Englisch und Kantonesisch und erzielt durchgängig state-of-the-art Synthesequalität über verschiedene Sprachen hinweg unter diversen musikalischen Bedingungen. Darüber hinaus schaffen wir SoulX-Singer-Eval, einen dedizierten Benchmark mit strenger Trennung von Trainings- und Testdaten, um eine zuverlässige Bewertung der Zero-Shot-SVS-Leistung in praktischen Szenarien zu ermöglichen und eine systematische Evaluation in Zero-Shot-Settings zu erleichtern.
English
While recent years have witnessed rapid progress in speech synthesis, open-source singing voice synthesis (SVS) systems still face significant barriers to industrial deployment, particularly in terms of robustness and zero-shot generalization. In this report, we introduce SoulX-Singer, a high-quality open-source SVS system designed with practical deployment considerations in mind. SoulX-Singer supports controllable singing generation conditioned on either symbolic musical scores (MIDI) or melodic representations, enabling flexible and expressive control in real-world production workflows. Trained on more than 42,000 hours of vocal data, the system supports Mandarin Chinese, English, and Cantonese and consistently achieves state-of-the-art synthesis quality across languages under diverse musical conditions. Furthermore, to enable reliable evaluation of zero-shot SVS performance in practical scenarios, we construct SoulX-Singer-Eval, a dedicated benchmark with strict training-test disentanglement, facilitating systematic assessment in zero-shot settings.