MIKU-PAL: Автоматизированный и стандартизированный мультимодальный метод маркировки паралингвистических и аффективных характеристик речи
MIKU-PAL: An Automated and Standardized Multi-Modal Method for Speech Paralinguistic and Affect Labeling
May 21, 2025
Авторы: Yifan Cheng, Ruoyi Zhang, Jiatong Shi
cs.AI
Аннотация
Получение крупномасштабных данных эмоциональной речи с высокой степенью согласованности остается сложной задачей для синтеза речи. В данной статье представлен MIKU-PAL — полностью автоматизированный мультимодальный конвейер для извлечения высокосогласованной эмоциональной речи из немаркированных видеоданных. Используя алгоритмы обнаружения и отслеживания лиц, мы разработали автоматическую систему анализа эмоций на основе мультимодальной большой языковой модели (MLLM). Наши результаты показывают, что MIKU-PAL способен достичь точности на уровне человека (68,5% на MELD) и превосходной согласованности (0,93 по шкале Флейсса), при этом будучи значительно дешевле и быстрее, чем ручная разметка. Благодаря высококачественной, гибкой и согласованной разметке MIKU-PAL, мы можем аннотировать детализированные категории эмоций речи до 26 типов, что подтверждается человеческими аннотаторами с 83% оценкой рациональности. На основе предложенной системы мы также выпустили детализированный набор данных эмоциональной речи MIKU-EmoBench (131,2 часа) в качестве нового эталона для эмоционального преобразования текста в речь и визуального клонирования голоса.
English
Acquiring large-scale emotional speech data with strong consistency remains a
challenge for speech synthesis. This paper presents MIKU-PAL, a fully automated
multimodal pipeline for extracting high-consistency emotional speech from
unlabeled video data. Leveraging face detection and tracking algorithms, we
developed an automatic emotion analysis system using a multimodal large
language model (MLLM). Our results demonstrate that MIKU-PAL can achieve
human-level accuracy (68.5% on MELD) and superior consistency (0.93 Fleiss
kappa score) while being much cheaper and faster than human annotation. With
the high-quality, flexible, and consistent annotation from MIKU-PAL, we can
annotate fine-grained speech emotion categories of up to 26 types, validated by
human annotators with 83% rationality ratings. Based on our proposed system, we
further released a fine-grained emotional speech dataset MIKU-EmoBench(131.2
hours) as a new benchmark for emotional text-to-speech and visual voice
cloning.