Rapport Technique Marco-Voice
Marco-Voice Technical Report
August 4, 2025
papers.authors: Fengping Tian, Chenyang Lyu, Xuanfan Ni, Haoqin Sun, Qingjuan Li, Zhiqiang Qian, Haijun Li, Longyue Wang, Zhao Xu, Weihua Luo, Kaifu Zhang
cs.AI
papers.abstract
Cet article présente un système de synthèse vocale multifonctionnel qui intègre le clonage vocal et la synthèse de parole avec contrôle émotionnel dans un cadre unifié. L'objectif de ce travail est de relever les défis de longue date liés à la génération de parole hautement expressive, contrôlable et naturelle, tout en préservant fidèlement l'identité du locuteur dans divers contextes linguistiques et émotionnels. Notre approche introduit un mécanisme efficace de dissociation locuteur-émotion avec un apprentissage contrastif intra-lot, permettant une manipulation indépendante de l'identité du locuteur et du style émotionnel, ainsi qu'une méthode d'intégration d'encodage émotionnel rotationnel pour un contrôle fluide des émotions. Pour soutenir un entraînement et une évaluation complets, nous avons constitué CSEMOTIONS, un ensemble de données de parole émotionnelle de haute qualité contenant 10 heures de discours en mandarin provenant de six locuteurs professionnels couvrant sept catégories émotionnelles. Des expériences approfondies démontrent que notre système, Marco-Voice, obtient des améliorations substantielles à la fois sur les métriques objectives et subjectives. Des évaluations et analyses complètes ont été menées, les résultats montrent que MarcoVoice offre des performances compétitives en termes de clarté de la parole et de richesse émotionnelle, représentant une avancée significative dans le domaine de la synthèse vocale neuronale expressive.
English
This paper presents a multifunctional speech synthesis system that integrates
voice cloning and emotion control speech synthesis within a unified framework.
The goal of this work is to address longstanding challenges in achieving highly
expressive, controllable, and natural speech generation that faithfully
preserves speaker identity across diverse linguistic and emotional contexts.
Our approach introduces an effective speaker-emotion disentanglement mechanism
with in-batch contrastive learning, enabling independent manipulation of
speaker identity and eemotional style, as well as rotational emotional
embedding integration method for smooth emotion control. To support
comprehensive training and evaluation, we construct CSEMOTIONS, a high-quality
emotional speech dataset containing 10 hours of Mandarin speech from six
professional speakers across seven emotional categories. Extensive experiments
demonstrate that our system, Marco-Voice, achieves substantial improvements in
both objective and subjective metrics. Comprehensive evaluations and analysis
were conducted, results show that MarcoVoice delivers competitive performance
in terms of speech clarity and emotional richness, representing a substantial
advance in the field of expressive neural speech synthesis.