ChatPaper.aiChatPaper

MIKU-PAL: Eine automatisierte und standardisierte multimodale Methode zur paralinguistischen und affektiven Beschriftung von Sprache

MIKU-PAL: An Automated and Standardized Multi-Modal Method for Speech Paralinguistic and Affect Labeling

May 21, 2025
Autoren: Yifan Cheng, Ruoyi Zhang, Jiatong Shi
cs.AI

Zusammenfassung

Die Beschaffung von groß angelegten emotionalen Sprachdaten mit starker Konsistenz bleibt eine Herausforderung für die Sprachsynthese. Dieses Papier stellt MIKU-PAL vor, eine vollständig automatisierte multimodale Pipeline zur Extraktion von hochkonsistenten emotionalen Sprachdaten aus unmarkierten Videodaten. Durch die Nutzung von Gesichtserkennungs- und Tracking-Algorithmen haben wir ein automatisches Emotionsanalysesystem entwickelt, das ein multimodales großes Sprachmodell (MLLM) verwendet. Unsere Ergebnisse zeigen, dass MIKU-PAL eine menschenähnliche Genauigkeit (68,5 % auf MELD) und eine überlegene Konsistenz (0,93 Fleiss-Kappa-Wert) erreichen kann, während es deutlich kostengünstiger und schneller ist als menschliche Annotationen. Mit den hochwertigen, flexiblen und konsistenten Annotationen von MIKU-PAL können wir fein abgestufte Sprachkategorien von bis zu 26 Typen annotieren, die von menschlichen Annotatoren mit einer Rationalitätsbewertung von 83 % validiert wurden. Basierend auf unserem vorgeschlagenen System haben wir weiterhin einen fein abgestuften emotionalen Sprachdatensatz MIKU-EmoBench (131,2 Stunden) als neuen Benchmark für emotionale Text-zu-Sprache- und visuelle Sprachklonung veröffentlicht.
English
Acquiring large-scale emotional speech data with strong consistency remains a challenge for speech synthesis. This paper presents MIKU-PAL, a fully automated multimodal pipeline for extracting high-consistency emotional speech from unlabeled video data. Leveraging face detection and tracking algorithms, we developed an automatic emotion analysis system using a multimodal large language model (MLLM). Our results demonstrate that MIKU-PAL can achieve human-level accuracy (68.5% on MELD) and superior consistency (0.93 Fleiss kappa score) while being much cheaper and faster than human annotation. With the high-quality, flexible, and consistent annotation from MIKU-PAL, we can annotate fine-grained speech emotion categories of up to 26 types, validated by human annotators with 83% rationality ratings. Based on our proposed system, we further released a fine-grained emotional speech dataset MIKU-EmoBench(131.2 hours) as a new benchmark for emotional text-to-speech and visual voice cloning.
PDF22June 3, 2025