Rapporto Tecnico di Marco-Voice
Marco-Voice Technical Report
August 4, 2025
Autori: Fengping Tian, Chenyang Lyu, Xuanfan Ni, Haoqin Sun, Qingjuan Li, Zhiqiang Qian, Haijun Li, Longyue Wang, Zhao Xu, Weihua Luo, Kaifu Zhang
cs.AI
Abstract
Questo articolo presenta un sistema di sintesi vocale multifunzionale che integra la clonazione vocale e la sintesi vocale con controllo emotivo all'interno di un framework unificato. L'obiettivo di questo lavoro è affrontare le sfide di lunga data nel raggiungere una generazione vocale altamente espressiva, controllabile e naturale che preservi fedelmente l'identità del parlante in diversi contesti linguistici ed emotivi. Il nostro approccio introduce un efficace meccanismo di separazione tra parlante ed emozione con apprendimento contrastivo in batch, consentendo la manipolazione indipendente dell'identità del parlante e dello stile emotivo, nonché un metodo di integrazione di embedding emotivi rotazionali per un controllo fluido delle emozioni. Per supportare un addestramento e una valutazione completi, abbiamo costruito CSEMOTIONS, un dataset vocale emotivo di alta qualità contenente 10 ore di discorso in mandarino da sei parlanti professionisti in sette categorie emotive. Esperimenti estensivi dimostrano che il nostro sistema, Marco-Voice, raggiunge miglioramenti sostanziali sia nelle metriche oggettive che soggettive. Valutazioni e analisi complete sono state condotte, i risultati mostrano che MarcoVoice offre prestazioni competitive in termini di chiarezza del discorso e ricchezza emotiva, rappresentando un progresso significativo nel campo della sintesi vocale neurale espressiva.
English
This paper presents a multifunctional speech synthesis system that integrates
voice cloning and emotion control speech synthesis within a unified framework.
The goal of this work is to address longstanding challenges in achieving highly
expressive, controllable, and natural speech generation that faithfully
preserves speaker identity across diverse linguistic and emotional contexts.
Our approach introduces an effective speaker-emotion disentanglement mechanism
with in-batch contrastive learning, enabling independent manipulation of
speaker identity and eemotional style, as well as rotational emotional
embedding integration method for smooth emotion control. To support
comprehensive training and evaluation, we construct CSEMOTIONS, a high-quality
emotional speech dataset containing 10 hours of Mandarin speech from six
professional speakers across seven emotional categories. Extensive experiments
demonstrate that our system, Marco-Voice, achieves substantial improvements in
both objective and subjective metrics. Comprehensive evaluations and analysis
were conducted, results show that MarcoVoice delivers competitive performance
in terms of speech clarity and emotional richness, representing a substantial
advance in the field of expressive neural speech synthesis.