Informe Técnico Marco-Voice

Resumen

Este artículo presenta un sistema multifuncional de síntesis de voz que integra la clonación de voz y la síntesis de voz con control emocional dentro de un marco unificado. El objetivo de este trabajo es abordar desafíos de larga data en la generación de voz altamente expresiva, controlable y natural que preserve fielmente la identidad del hablante en diversos contextos lingüísticos y emocionales. Nuestro enfoque introduce un mecanismo efectivo de desentrelazamiento de hablante-emoción con aprendizaje contrastivo en lote, permitiendo la manipulación independiente de la identidad del hablante y el estilo emocional, así como un método de integración de incrustaciones emocionales rotacionales para un control suave de las emociones. Para respaldar un entrenamiento y evaluación exhaustivos, construimos CSEMOTIONS, un conjunto de datos de voz emocional de alta calidad que contiene 10 horas de habla en mandarín de seis hablantes profesionales en siete categorías emocionales. Experimentos extensos demuestran que nuestro sistema, Marco-Voice, logra mejoras sustanciales tanto en métricas objetivas como subjetivas. Se llevaron a cabo evaluaciones y análisis exhaustivos, cuyos resultados muestran que MarcoVoice ofrece un rendimiento competitivo en términos de claridad del habla y riqueza emocional, representando un avance significativo en el campo de la síntesis de voz neural expresiva.

English

This paper presents a multifunctional speech synthesis system that integrates voice cloning and emotion control speech synthesis within a unified framework. The goal of this work is to address longstanding challenges in achieving highly expressive, controllable, and natural speech generation that faithfully preserves speaker identity across diverse linguistic and emotional contexts. Our approach introduces an effective speaker-emotion disentanglement mechanism with in-batch contrastive learning, enabling independent manipulation of speaker identity and eemotional style, as well as rotational emotional embedding integration method for smooth emotion control. To support comprehensive training and evaluation, we construct CSEMOTIONS, a high-quality emotional speech dataset containing 10 hours of Mandarin speech from six professional speakers across seven emotional categories. Extensive experiments demonstrate that our system, Marco-Voice, achieves substantial improvements in both objective and subjective metrics. Comprehensive evaluations and analysis were conducted, results show that MarcoVoice delivers competitive performance in terms of speech clarity and emotional richness, representing a substantial advance in the field of expressive neural speech synthesis.

Informe Técnico Marco-Voice

Marco-Voice Technical Report

Resumen

Support