Informe Técnico Marco-Voice
Marco-Voice Technical Report
August 4, 2025
Autores: Fengping Tian, Chenyang Lyu, Xuanfan Ni, Haoqin Sun, Qingjuan Li, Zhiqiang Qian, Haijun Li, Longyue Wang, Zhao Xu, Weihua Luo, Kaifu Zhang
cs.AI
Resumen
Este artículo presenta un sistema multifuncional de síntesis de voz que integra la clonación de voz y la síntesis de voz con control emocional dentro de un marco unificado. El objetivo de este trabajo es abordar desafíos de larga data en la generación de voz altamente expresiva, controlable y natural que preserve fielmente la identidad del hablante en diversos contextos lingüísticos y emocionales. Nuestro enfoque introduce un mecanismo efectivo de desentrelazamiento de hablante-emoción con aprendizaje contrastivo en lote, permitiendo la manipulación independiente de la identidad del hablante y el estilo emocional, así como un método de integración de incrustaciones emocionales rotacionales para un control suave de las emociones. Para respaldar un entrenamiento y evaluación exhaustivos, construimos CSEMOTIONS, un conjunto de datos de voz emocional de alta calidad que contiene 10 horas de habla en mandarín de seis hablantes profesionales en siete categorías emocionales. Experimentos extensos demuestran que nuestro sistema, Marco-Voice, logra mejoras sustanciales tanto en métricas objetivas como subjetivas. Se llevaron a cabo evaluaciones y análisis exhaustivos, cuyos resultados muestran que MarcoVoice ofrece un rendimiento competitivo en términos de claridad del habla y riqueza emocional, representando un avance significativo en el campo de la síntesis de voz neural expresiva.
English
This paper presents a multifunctional speech synthesis system that integrates
voice cloning and emotion control speech synthesis within a unified framework.
The goal of this work is to address longstanding challenges in achieving highly
expressive, controllable, and natural speech generation that faithfully
preserves speaker identity across diverse linguistic and emotional contexts.
Our approach introduces an effective speaker-emotion disentanglement mechanism
with in-batch contrastive learning, enabling independent manipulation of
speaker identity and eemotional style, as well as rotational emotional
embedding integration method for smooth emotion control. To support
comprehensive training and evaluation, we construct CSEMOTIONS, a high-quality
emotional speech dataset containing 10 hours of Mandarin speech from six
professional speakers across seven emotional categories. Extensive experiments
demonstrate that our system, Marco-Voice, achieves substantial improvements in
both objective and subjective metrics. Comprehensive evaluations and analysis
were conducted, results show that MarcoVoice delivers competitive performance
in terms of speech clarity and emotional richness, representing a substantial
advance in the field of expressive neural speech synthesis.