ChatPaper.aiChatPaper

SoulX-Singer: В сторону высококачественного синтеза пения с нулевым обучением

SoulX-Singer: Towards High-Quality Zero-Shot Singing Voice Synthesis

February 8, 2026
Авторы: Jiale Qian, Hao Meng, Tian Zheng, Pengcheng Zhu, Haopeng Lin, Yuhang Dai, Hanke Xie, Wenxiao Cao, Ruixuan Shang, Jun Wu, Hongmei Liu, Hanlin Wen, Jian Zhao, Zhonglin Jiang, Yong Chen, Shunshun Yin, Ming Tao, Jianguo Wei, Lei Xie, Xinsheng Wang
cs.AI

Аннотация

Хотя в последние годы наблюдается быстрый прогресс в области синтеза речи, системы синтеза вокала с открытым исходным кодом по-прежнему сталкиваются со значительными препятствиями для промышленного внедрения, особенно в вопросах устойчивости и обобщения в условиях zero-shot. В данном отчете мы представляем SoulX-Singer — высококачественную систему синтеза вокала с открытым исходным кодом, разработанную с учетом практических требований развертывания. SoulX-Singer поддерживает управляемый синтез пения на основе либо символических партитур (MIDI), либо мелодических представлений, что обеспечивает гибкий и выразительный контроль в реальных производственных процессах. Обученная на более чем 42 000 часов вокальных данных, система поддерживает мандаринский китайский, английский и кантонский языки и стабильно демонстрирует высочайшее качество синтеза для всех языков в различных музыкальных условиях. Кроме того, для обеспечения надежной оценки производительности SVS в условиях zero-shot в практических сценариях мы создали SoulX-Singer-Eval — специализированный бенчмарк со строгим разделением обучающих и тестовых данных, способствующий систематической оценке в настройках zero-shot.
English
While recent years have witnessed rapid progress in speech synthesis, open-source singing voice synthesis (SVS) systems still face significant barriers to industrial deployment, particularly in terms of robustness and zero-shot generalization. In this report, we introduce SoulX-Singer, a high-quality open-source SVS system designed with practical deployment considerations in mind. SoulX-Singer supports controllable singing generation conditioned on either symbolic musical scores (MIDI) or melodic representations, enabling flexible and expressive control in real-world production workflows. Trained on more than 42,000 hours of vocal data, the system supports Mandarin Chinese, English, and Cantonese and consistently achieves state-of-the-art synthesis quality across languages under diverse musical conditions. Furthermore, to enable reliable evaluation of zero-shot SVS performance in practical scenarios, we construct SoulX-Singer-Eval, a dedicated benchmark with strict training-test disentanglement, facilitating systematic assessment in zero-shot settings.
PDF32February 11, 2026