MIKU-PAL : Une méthode automatisée et standardisée multi-modale pour l'étiquetage paralinguistique et affectif de la parole
MIKU-PAL: An Automated and Standardized Multi-Modal Method for Speech Paralinguistic and Affect Labeling
May 21, 2025
Auteurs: Yifan Cheng, Ruoyi Zhang, Jiatong Shi
cs.AI
Résumé
L'acquisition de données vocales émotionnelles à grande échelle avec une forte cohérence reste un défi pour la synthèse vocale. Cet article présente MIKU-PAL, un pipeline multimodal entièrement automatisé pour extraire des données vocales émotionnelles hautement cohérentes à partir de vidéos non annotées. En exploitant des algorithmes de détection et de suivi facial, nous avons développé un système d'analyse émotionnelle automatique utilisant un modèle de langage multimodal à grande échelle (MLLM). Nos résultats démontrent que MIKU-PAL peut atteindre une précision équivalente à celle d'un humain (68,5 % sur MELD) et une cohérence supérieure (score de kappa de Fleiss de 0,93), tout en étant beaucoup plus économique et rapide que l'annotation humaine. Grâce aux annotations de haute qualité, flexibles et cohérentes de MIKU-PAL, nous pouvons annoter des catégories d'émotions vocales fines allant jusqu'à 26 types, validées par des annotateurs humains avec un taux de rationalité de 83 %. Sur la base de notre système proposé, nous avons également publié un ensemble de données vocales émotionnelles fines, MIKU-EmoBench (131,2 heures), comme nouveau benchmark pour la synthèse vocale émotionnelle et le clonage vocal visuel.
English
Acquiring large-scale emotional speech data with strong consistency remains a
challenge for speech synthesis. This paper presents MIKU-PAL, a fully automated
multimodal pipeline for extracting high-consistency emotional speech from
unlabeled video data. Leveraging face detection and tracking algorithms, we
developed an automatic emotion analysis system using a multimodal large
language model (MLLM). Our results demonstrate that MIKU-PAL can achieve
human-level accuracy (68.5% on MELD) and superior consistency (0.93 Fleiss
kappa score) while being much cheaper and faster than human annotation. With
the high-quality, flexible, and consistent annotation from MIKU-PAL, we can
annotate fine-grained speech emotion categories of up to 26 types, validated by
human annotators with 83% rationality ratings. Based on our proposed system, we
further released a fine-grained emotional speech dataset MIKU-EmoBench(131.2
hours) as a new benchmark for emotional text-to-speech and visual voice
cloning.