ChatPaper.aiChatPaper

MIKU-PAL: Un Metodo Automatico e Standardizzato Multi-Modale per l'Etichettatura Paralinguistica e degli Affetti nel Discorso

MIKU-PAL: An Automated and Standardized Multi-Modal Method for Speech Paralinguistic and Affect Labeling

May 21, 2025
Autori: Yifan Cheng, Ruoyi Zhang, Jiatong Shi
cs.AI

Abstract

L'acquisizione di dati vocali emotivi su larga scala con una forte coerenza rimane una sfida per la sintesi vocale. Questo articolo presenta MIKU-PAL, una pipeline multimodale completamente automatizzata per estrarre discorsi emotivi ad alta coerenza da dati video non etichettati. Sfruttando algoritmi di rilevamento e tracciamento del volto, abbiamo sviluppato un sistema automatico di analisi delle emozioni utilizzando un modello linguistico multimodale di grandi dimensioni (MLLM). I nostri risultati dimostrano che MIKU-PAL può raggiungere un'accuratezza a livello umano (68,5% su MELD) e una coerenza superiore (punteggio Fleiss kappa di 0,93), essendo molto più economico e veloce rispetto all'annotazione umana. Con l'annotazione di alta qualità, flessibile e coerente di MIKU-PAL, possiamo annotare categorie di emozioni vocali finemente dettagliate fino a 26 tipi, validate da annotatori umani con un tasso di razionalità dell'83%. Basandoci sul nostro sistema proposto, abbiamo ulteriormente rilasciato un dataset di discorsi emotivi finemente dettagliato, MIKU-EmoBench (131,2 ore), come nuovo benchmark per la sintesi vocale emotiva e il clonaggio vocale visivo.
English
Acquiring large-scale emotional speech data with strong consistency remains a challenge for speech synthesis. This paper presents MIKU-PAL, a fully automated multimodal pipeline for extracting high-consistency emotional speech from unlabeled video data. Leveraging face detection and tracking algorithms, we developed an automatic emotion analysis system using a multimodal large language model (MLLM). Our results demonstrate that MIKU-PAL can achieve human-level accuracy (68.5% on MELD) and superior consistency (0.93 Fleiss kappa score) while being much cheaper and faster than human annotation. With the high-quality, flexible, and consistent annotation from MIKU-PAL, we can annotate fine-grained speech emotion categories of up to 26 types, validated by human annotators with 83% rationality ratings. Based on our proposed system, we further released a fine-grained emotional speech dataset MIKU-EmoBench(131.2 hours) as a new benchmark for emotional text-to-speech and visual voice cloning.
PDF32June 3, 2025