MIKU-PAL: Un Metodo Automatico e Standardizzato Multi-Modale per l'Etichettatura Paralinguistica e degli Affetti nel Discorso
MIKU-PAL: An Automated and Standardized Multi-Modal Method for Speech Paralinguistic and Affect Labeling
May 21, 2025
Autori: Yifan Cheng, Ruoyi Zhang, Jiatong Shi
cs.AI
Abstract
L'acquisizione di dati vocali emotivi su larga scala con una forte coerenza rimane una sfida per la sintesi vocale. Questo articolo presenta MIKU-PAL, una pipeline multimodale completamente automatizzata per estrarre discorsi emotivi ad alta coerenza da dati video non etichettati. Sfruttando algoritmi di rilevamento e tracciamento del volto, abbiamo sviluppato un sistema automatico di analisi delle emozioni utilizzando un modello linguistico multimodale di grandi dimensioni (MLLM). I nostri risultati dimostrano che MIKU-PAL può raggiungere un'accuratezza a livello umano (68,5% su MELD) e una coerenza superiore (punteggio Fleiss kappa di 0,93), essendo molto più economico e veloce rispetto all'annotazione umana. Con l'annotazione di alta qualità, flessibile e coerente di MIKU-PAL, possiamo annotare categorie di emozioni vocali finemente dettagliate fino a 26 tipi, validate da annotatori umani con un tasso di razionalità dell'83%. Basandoci sul nostro sistema proposto, abbiamo ulteriormente rilasciato un dataset di discorsi emotivi finemente dettagliato, MIKU-EmoBench (131,2 ore), come nuovo benchmark per la sintesi vocale emotiva e il clonaggio vocale visivo.
English
Acquiring large-scale emotional speech data with strong consistency remains a
challenge for speech synthesis. This paper presents MIKU-PAL, a fully automated
multimodal pipeline for extracting high-consistency emotional speech from
unlabeled video data. Leveraging face detection and tracking algorithms, we
developed an automatic emotion analysis system using a multimodal large
language model (MLLM). Our results demonstrate that MIKU-PAL can achieve
human-level accuracy (68.5% on MELD) and superior consistency (0.93 Fleiss
kappa score) while being much cheaper and faster than human annotation. With
the high-quality, flexible, and consistent annotation from MIKU-PAL, we can
annotate fine-grained speech emotion categories of up to 26 types, validated by
human annotators with 83% rationality ratings. Based on our proposed system, we
further released a fine-grained emotional speech dataset MIKU-EmoBench(131.2
hours) as a new benchmark for emotional text-to-speech and visual voice
cloning.