MIKU-PAL: Een geautomatiseerde en gestandaardiseerde multimodale methode voor spraakparalinguïstiek en affectlabeling
MIKU-PAL: An Automated and Standardized Multi-Modal Method for Speech Paralinguistic and Affect Labeling
May 21, 2025
Auteurs: Yifan Cheng, Ruoyi Zhang, Jiatong Shi
cs.AI
Samenvatting
Het verkrijgen van grootschalige emotionele spraakdata met een sterke consistentie blijft een uitdaging voor spraaksynthese. Dit artikel presenteert MIKU-PAL, een volledig geautomatiseerde multimodale pipeline voor het extraheren van hoog-consistente emotionele spraak uit ongelabelde videodata. Door gebruik te maken van gezichtsdetectie en tracking-algoritmen, hebben we een automatisch emotieanalysesysteem ontwikkeld met behulp van een multimodaal groot taalmodel (MLLM). Onze resultaten tonen aan dat MIKU-PAL menselijke nauwkeurigheid kan bereiken (68,5% op MELD) en superieure consistentie (0,93 Fleiss kappa-score) terwijl het veel goedkoper en sneller is dan menselijke annotatie. Met de hoogwaardige, flexibele en consistente annotatie van MIKU-PAL kunnen we fijnmazige spraakemotiecategorieën van maximaal 26 types annoteren, gevalideerd door menselijke annotators met 83% rationaliteitsbeoordelingen. Op basis van ons voorgestelde systeem hebben we verder een fijnmazige emotionele spraakdataset MIKU-EmoBench (131,2 uur) vrijgegeven als een nieuwe benchmark voor emotionele tekst-naar-spraak en visuele stemklonen.
English
Acquiring large-scale emotional speech data with strong consistency remains a
challenge for speech synthesis. This paper presents MIKU-PAL, a fully automated
multimodal pipeline for extracting high-consistency emotional speech from
unlabeled video data. Leveraging face detection and tracking algorithms, we
developed an automatic emotion analysis system using a multimodal large
language model (MLLM). Our results demonstrate that MIKU-PAL can achieve
human-level accuracy (68.5% on MELD) and superior consistency (0.93 Fleiss
kappa score) while being much cheaper and faster than human annotation. With
the high-quality, flexible, and consistent annotation from MIKU-PAL, we can
annotate fine-grained speech emotion categories of up to 26 types, validated by
human annotators with 83% rationality ratings. Based on our proposed system, we
further released a fine-grained emotional speech dataset MIKU-EmoBench(131.2
hours) as a new benchmark for emotional text-to-speech and visual voice
cloning.