ChatPaper.aiChatPaper

SoulX-Singer: Hacia la Síntesis de Voz Cantada de Alta Calidad con Zero-Shot

SoulX-Singer: Towards High-Quality Zero-Shot Singing Voice Synthesis

February 8, 2026
Autores: Jiale Qian, Hao Meng, Tian Zheng, Pengcheng Zhu, Haopeng Lin, Yuhang Dai, Hanke Xie, Wenxiao Cao, Ruixuan Shang, Jun Wu, Hongmei Liu, Hanlin Wen, Jian Zhao, Zhonglin Jiang, Yong Chen, Shunshun Yin, Ming Tao, Jianguo Wei, Lei Xie, Xinsheng Wang
cs.AI

Resumen

Si bien los últimos años han presenciado avances rápidos en la síntesis de voz, los sistemas de síntesis de voz cantada (SVS) de código abierto aún enfrentan barreras significativas para su implementación industrial, particularmente en términos de robustez y generalización *zero-shot*. En este informe, presentamos SoulX-Singer, un sistema SVS de código abierto y alta calidad diseñado considerando aspectos prácticos de implementación. SoulX-Singer admite la generación controlada de canto condicionada por partituras musicales simbólicas (MIDI) o representaciones melódicas, permitiendo un control flexible y expresivo en flujos de trabajo de producción reales. Entrenado con más de 42,000 horas de datos vocales, el sistema admite chino mandarín, inglés y cantonés, y logra consistentemente una calidad de síntesis de vanguardia en todos los idiomas bajo diversas condiciones musicales. Además, para permitir una evaluación confiable del rendimiento SVS *zero-shot* en escenarios prácticos, construimos SoulX-Singer-Eval, un benchmark dedicado con una estricta separación entrenamiento-prueba, facilitando la evaluación sistemática en entornos *zero-shot*.
English
While recent years have witnessed rapid progress in speech synthesis, open-source singing voice synthesis (SVS) systems still face significant barriers to industrial deployment, particularly in terms of robustness and zero-shot generalization. In this report, we introduce SoulX-Singer, a high-quality open-source SVS system designed with practical deployment considerations in mind. SoulX-Singer supports controllable singing generation conditioned on either symbolic musical scores (MIDI) or melodic representations, enabling flexible and expressive control in real-world production workflows. Trained on more than 42,000 hours of vocal data, the system supports Mandarin Chinese, English, and Cantonese and consistently achieves state-of-the-art synthesis quality across languages under diverse musical conditions. Furthermore, to enable reliable evaluation of zero-shot SVS performance in practical scenarios, we construct SoulX-Singer-Eval, a dedicated benchmark with strict training-test disentanglement, facilitating systematic assessment in zero-shot settings.
PDF32February 11, 2026