Marco-Voice Technisch Rapport
Marco-Voice Technical Report
August 4, 2025
Auteurs: Fengping Tian, Chenyang Lyu, Xuanfan Ni, Haoqin Sun, Qingjuan Li, Zhiqiang Qian, Haijun Li, Longyue Wang, Zhao Xu, Weihua Luo, Kaifu Zhang
cs.AI
Samenvatting
Dit artikel presenteert een multifunctioneel spraaksynthesesysteem dat stemklonen en emotiegestuurde spraaksynthese integreert binnen een uniform raamwerk. Het doel van dit werk is om lang bestaande uitdagingen aan te pakken bij het bereiken van zeer expressieve, controleerbare en natuurlijke spraakgeneratie die de sprekersidentiteit trouw bewaart in diverse linguïstische en emotionele contexten. Onze aanpak introduceert een effectief mechanisme voor spreker-emotie-ontvlechting met in-batch contrastief leren, waardoor onafhankelijke manipulatie van sprekersidentiteit en emotionele stijl mogelijk wordt, evenals een roterende integratiemethode voor emotionele inbedding voor soepele emotiecontrole. Om uitgebreide training en evaluatie te ondersteunen, hebben we CSEMOTIONS geconstrueerd, een hoogwaardige emotionele spraakdataset die 10 uur Mandarijnse spraak bevat van zes professionele sprekers in zeven emotionele categorieën. Uitgebreide experimenten tonen aan dat ons systeem, Marco-Voice, aanzienlijke verbeteringen bereikt in zowel objectieve als subjectieve metrieken. Uitgebreide evaluaties en analyses zijn uitgevoerd, en de resultaten laten zien dat MarcoVoice competitieve prestaties levert op het gebied van spraakhelderheid en emotionele rijkdom, wat een aanzienlijke vooruitgang vertegenwoordigt op het gebied van expressieve neurale spraaksynthese.
English
This paper presents a multifunctional speech synthesis system that integrates
voice cloning and emotion control speech synthesis within a unified framework.
The goal of this work is to address longstanding challenges in achieving highly
expressive, controllable, and natural speech generation that faithfully
preserves speaker identity across diverse linguistic and emotional contexts.
Our approach introduces an effective speaker-emotion disentanglement mechanism
with in-batch contrastive learning, enabling independent manipulation of
speaker identity and eemotional style, as well as rotational emotional
embedding integration method for smooth emotion control. To support
comprehensive training and evaluation, we construct CSEMOTIONS, a high-quality
emotional speech dataset containing 10 hours of Mandarin speech from six
professional speakers across seven emotional categories. Extensive experiments
demonstrate that our system, Marco-Voice, achieves substantial improvements in
both objective and subjective metrics. Comprehensive evaluations and analysis
were conducted, results show that MarcoVoice delivers competitive performance
in terms of speech clarity and emotional richness, representing a substantial
advance in the field of expressive neural speech synthesis.