MIKU-PAL: Un Metodo Automatico e Standardizzato Multi-Modale per l'Etichettatura Paralinguistica e degli Affetti nel Discorso

Abstract

L'acquisizione di dati vocali emotivi su larga scala con una forte coerenza rimane una sfida per la sintesi vocale. Questo articolo presenta MIKU-PAL, una pipeline multimodale completamente automatizzata per estrarre discorsi emotivi ad alta coerenza da dati video non etichettati. Sfruttando algoritmi di rilevamento e tracciamento del volto, abbiamo sviluppato un sistema automatico di analisi delle emozioni utilizzando un modello linguistico multimodale di grandi dimensioni (MLLM). I nostri risultati dimostrano che MIKU-PAL può raggiungere un'accuratezza a livello umano (68,5% su MELD) e una coerenza superiore (punteggio Fleiss kappa di 0,93), essendo molto più economico e veloce rispetto all'annotazione umana. Con l'annotazione di alta qualità, flessibile e coerente di MIKU-PAL, possiamo annotare categorie di emozioni vocali finemente dettagliate fino a 26 tipi, validate da annotatori umani con un tasso di razionalità dell'83%. Basandoci sul nostro sistema proposto, abbiamo ulteriormente rilasciato un dataset di discorsi emotivi finemente dettagliato, MIKU-EmoBench (131,2 ore), come nuovo benchmark per la sintesi vocale emotiva e il clonaggio vocale visivo.

English

Acquiring large-scale emotional speech data with strong consistency remains a challenge for speech synthesis. This paper presents MIKU-PAL, a fully automated multimodal pipeline for extracting high-consistency emotional speech from unlabeled video data. Leveraging face detection and tracking algorithms, we developed an automatic emotion analysis system using a multimodal large language model (MLLM). Our results demonstrate that MIKU-PAL can achieve human-level accuracy (68.5% on MELD) and superior consistency (0.93 Fleiss kappa score) while being much cheaper and faster than human annotation. With the high-quality, flexible, and consistent annotation from MIKU-PAL, we can annotate fine-grained speech emotion categories of up to 26 types, validated by human annotators with 83% rationality ratings. Based on our proposed system, we further released a fine-grained emotional speech dataset MIKU-EmoBench(131.2 hours) as a new benchmark for emotional text-to-speech and visual voice cloning.

MIKU-PAL: Un Metodo Automatico e Standardizzato Multi-Modale per l'Etichettatura Paralinguistica e degli Affetti nel Discorso

MIKU-PAL: An Automated and Standardized Multi-Modal Method for Speech Paralinguistic and Affect Labeling

Abstract

Support