Технический отчет Marco-Voice
Marco-Voice Technical Report
August 4, 2025
Авторы: Fengping Tian, Chenyang Lyu, Xuanfan Ni, Haoqin Sun, Qingjuan Li, Zhiqiang Qian, Haijun Li, Longyue Wang, Zhao Xu, Weihua Luo, Kaifu Zhang
cs.AI
Аннотация
В данной статье представлена многофункциональная система синтеза речи, которая объединяет клонирование голоса и синтез речи с управлением эмоциями в рамках единой архитектуры. Цель данной работы заключается в решении давних проблем, связанных с достижением высоко выразительного, управляемого и естественного синтеза речи, который точно сохраняет идентичность говорящего в различных языковых и эмоциональных контекстах. Наш подход включает эффективный механизм разделения характеристик говорящего и эмоций с использованием внутрибатчевого контрастивного обучения, что позволяет независимо управлять идентичностью говорящего и эмоциональным стилем, а также метод интеграции вращающихся эмоциональных эмбеддингов для плавного управления эмоциями. Для поддержки комплексного обучения и оценки мы создали CSEMOTIONS — высококачественный эмоциональный речевой набор данных, содержащий 10 часов мандаринской речи от шести профессиональных дикторов в семи эмоциональных категориях. Многочисленные эксперименты демонстрируют, что наша система Marco-Voice достигает значительных улучшений как по объективным, так и по субъективным метрикам. Проведенные всесторонние оценки и анализ показывают, что MarcoVoice демонстрирует конкурентоспособные результаты с точки зрения четкости речи и эмоциональной насыщенности, что представляет собой существенный прогресс в области выразительного нейронного синтеза речи.
English
This paper presents a multifunctional speech synthesis system that integrates
voice cloning and emotion control speech synthesis within a unified framework.
The goal of this work is to address longstanding challenges in achieving highly
expressive, controllable, and natural speech generation that faithfully
preserves speaker identity across diverse linguistic and emotional contexts.
Our approach introduces an effective speaker-emotion disentanglement mechanism
with in-batch contrastive learning, enabling independent manipulation of
speaker identity and eemotional style, as well as rotational emotional
embedding integration method for smooth emotion control. To support
comprehensive training and evaluation, we construct CSEMOTIONS, a high-quality
emotional speech dataset containing 10 hours of Mandarin speech from six
professional speakers across seven emotional categories. Extensive experiments
demonstrate that our system, Marco-Voice, achieves substantial improvements in
both objective and subjective metrics. Comprehensive evaluations and analysis
were conducted, results show that MarcoVoice delivers competitive performance
in terms of speech clarity and emotional richness, representing a substantial
advance in the field of expressive neural speech synthesis.