Marco-Voice Technischer Bericht

papers.abstract

Dieses Papier stellt ein multifunktionales Sprachsynthesesystem vor, das Sprachklonung und emotionsgesteuerte Sprachsynthese in einem einheitlichen Framework integriert. Das Ziel dieser Arbeit ist es, langjährige Herausforderungen bei der Erzeugung von hochgradig ausdrucksstarker, kontrollierbarer und natürlicher Sprache zu bewältigen, die die Sprecheridentität über verschiedene linguistische und emotionale Kontexte hinweg treu bewahrt. Unser Ansatz führt einen effektiven Mechanismus zur Trennung von Sprecher und Emotion mit In-Batch-Kontrastlernen ein, der eine unabhängige Manipulation der Sprecheridentität und des emotionalen Stils sowie eine Methode zur Integration von rotierenden emotionalen Einbettungen für eine sanfte Emotionskontrolle ermöglicht. Um umfassendes Training und Evaluation zu unterstützen, haben wir CSEMOTIONS konstruiert, einen hochwertigen emotionalen Sprachdatensatz, der 10 Stunden Mandarin-Sprache von sechs professionellen Sprechern über sieben emotionale Kategorien hinweg enthält. Umfangreiche Experimente zeigen, dass unser System, Marco-Voice, erhebliche Verbesserungen sowohl in objektiven als auch subjektiven Metriken erzielt. Umfassende Evaluierungen und Analysen wurden durchgeführt, und die Ergebnisse zeigen, dass MarcoVoice wettbewerbsfähige Leistungen in Bezug auf Sprachklarheit und emotionale Reichhaltigkeit liefert und damit einen wesentlichen Fortschritt im Bereich der ausdrucksstarken neuronalen Sprachsynthese darstellt.

English

This paper presents a multifunctional speech synthesis system that integrates voice cloning and emotion control speech synthesis within a unified framework. The goal of this work is to address longstanding challenges in achieving highly expressive, controllable, and natural speech generation that faithfully preserves speaker identity across diverse linguistic and emotional contexts. Our approach introduces an effective speaker-emotion disentanglement mechanism with in-batch contrastive learning, enabling independent manipulation of speaker identity and eemotional style, as well as rotational emotional embedding integration method for smooth emotion control. To support comprehensive training and evaluation, we construct CSEMOTIONS, a high-quality emotional speech dataset containing 10 hours of Mandarin speech from six professional speakers across seven emotional categories. Extensive experiments demonstrate that our system, Marco-Voice, achieves substantial improvements in both objective and subjective metrics. Comprehensive evaluations and analysis were conducted, results show that MarcoVoice delivers competitive performance in terms of speech clarity and emotional richness, representing a substantial advance in the field of expressive neural speech synthesis.

Marco-Voice Technischer Bericht

Marco-Voice Technical Report

papers.abstract

Support