ChatPaper.aiChatPaper

Relatório Técnico Marco-Voice

Marco-Voice Technical Report

August 4, 2025
Autores: Fengping Tian, Chenyang Lyu, Xuanfan Ni, Haoqin Sun, Qingjuan Li, Zhiqiang Qian, Haijun Li, Longyue Wang, Zhao Xu, Weihua Luo, Kaifu Zhang
cs.AI

Resumo

Este artigo apresenta um sistema multifuncional de síntese de fala que integra clonagem de voz e controle emocional de síntese de fala em um framework unificado. O objetivo deste trabalho é abordar desafios de longa data na geração de fala altamente expressiva, controlável e natural que preserve fielmente a identidade do falante em diversos contextos linguísticos e emocionais. Nossa abordagem introduz um mecanismo eficaz de desembaraço entre falante e emoção com aprendizado contrastivo em lote, permitindo a manipulação independente da identidade do falante e do estilo emocional, além de um método de integração de embeddings emocionais rotacionais para controle suave das emoções. Para apoiar o treinamento e avaliação abrangentes, construímos o CSEMOTIONS, um conjunto de dados de fala emocional de alta qualidade contendo 10 horas de fala em mandarim de seis falantes profissionais em sete categorias emocionais. Experimentos extensivos demonstram que nosso sistema, Marco-Voice, alcança melhorias substanciais tanto em métricas objetivas quanto subjetivas. Avaliações e análises abrangentes foram conduzidas, e os resultados mostram que o MarcoVoice oferece desempenho competitivo em termos de clareza de fala e riqueza emocional, representando um avanço significativo no campo da síntese neural de fala expressiva.
English
This paper presents a multifunctional speech synthesis system that integrates voice cloning and emotion control speech synthesis within a unified framework. The goal of this work is to address longstanding challenges in achieving highly expressive, controllable, and natural speech generation that faithfully preserves speaker identity across diverse linguistic and emotional contexts. Our approach introduces an effective speaker-emotion disentanglement mechanism with in-batch contrastive learning, enabling independent manipulation of speaker identity and eemotional style, as well as rotational emotional embedding integration method for smooth emotion control. To support comprehensive training and evaluation, we construct CSEMOTIONS, a high-quality emotional speech dataset containing 10 hours of Mandarin speech from six professional speakers across seven emotional categories. Extensive experiments demonstrate that our system, Marco-Voice, achieves substantial improvements in both objective and subjective metrics. Comprehensive evaluations and analysis were conducted, results show that MarcoVoice delivers competitive performance in terms of speech clarity and emotional richness, representing a substantial advance in the field of expressive neural speech synthesis.
PDF152August 8, 2025