Marco-Voice Technischer Bericht
Marco-Voice Technical Report
August 4, 2025
papers.authors: Fengping Tian, Chenyang Lyu, Xuanfan Ni, Haoqin Sun, Qingjuan Li, Zhiqiang Qian, Haijun Li, Longyue Wang, Zhao Xu, Weihua Luo, Kaifu Zhang
cs.AI
papers.abstract
Dieses Papier stellt ein multifunktionales Sprachsynthesesystem vor, das Sprachklonung und emotionsgesteuerte Sprachsynthese in einem einheitlichen Framework integriert. Das Ziel dieser Arbeit ist es, langjährige Herausforderungen bei der Erzeugung von hochgradig ausdrucksstarker, kontrollierbarer und natürlicher Sprache zu bewältigen, die die Sprecheridentität über verschiedene linguistische und emotionale Kontexte hinweg treu bewahrt. Unser Ansatz führt einen effektiven Mechanismus zur Trennung von Sprecher und Emotion mit In-Batch-Kontrastlernen ein, der eine unabhängige Manipulation der Sprecheridentität und des emotionalen Stils sowie eine Methode zur Integration von rotierenden emotionalen Einbettungen für eine sanfte Emotionskontrolle ermöglicht. Um umfassendes Training und Evaluation zu unterstützen, haben wir CSEMOTIONS konstruiert, einen hochwertigen emotionalen Sprachdatensatz, der 10 Stunden Mandarin-Sprache von sechs professionellen Sprechern über sieben emotionale Kategorien hinweg enthält. Umfangreiche Experimente zeigen, dass unser System, Marco-Voice, erhebliche Verbesserungen sowohl in objektiven als auch subjektiven Metriken erzielt. Umfassende Evaluierungen und Analysen wurden durchgeführt, und die Ergebnisse zeigen, dass MarcoVoice wettbewerbsfähige Leistungen in Bezug auf Sprachklarheit und emotionale Reichhaltigkeit liefert und damit einen wesentlichen Fortschritt im Bereich der ausdrucksstarken neuronalen Sprachsynthese darstellt.
English
This paper presents a multifunctional speech synthesis system that integrates
voice cloning and emotion control speech synthesis within a unified framework.
The goal of this work is to address longstanding challenges in achieving highly
expressive, controllable, and natural speech generation that faithfully
preserves speaker identity across diverse linguistic and emotional contexts.
Our approach introduces an effective speaker-emotion disentanglement mechanism
with in-batch contrastive learning, enabling independent manipulation of
speaker identity and eemotional style, as well as rotational emotional
embedding integration method for smooth emotion control. To support
comprehensive training and evaluation, we construct CSEMOTIONS, a high-quality
emotional speech dataset containing 10 hours of Mandarin speech from six
professional speakers across seven emotional categories. Extensive experiments
demonstrate that our system, Marco-Voice, achieves substantial improvements in
both objective and subjective metrics. Comprehensive evaluations and analysis
were conducted, results show that MarcoVoice delivers competitive performance
in terms of speech clarity and emotional richness, representing a substantial
advance in the field of expressive neural speech synthesis.