ChatPaper.aiChatPaper

MIKU-PAL: Un Método Automatizado y Estandarizado Multimodal para el Etiquetado Paralingüístico y Afectivo del Habla

MIKU-PAL: An Automated and Standardized Multi-Modal Method for Speech Paralinguistic and Affect Labeling

May 21, 2025
Autores: Yifan Cheng, Ruoyi Zhang, Jiatong Shi
cs.AI

Resumen

La adquisición de datos de habla emocional a gran escala con una fuerte consistencia sigue siendo un desafío para la síntesis de voz. Este artículo presenta MIKU-PAL, una canalización multimodal completamente automatizada para extraer habla emocional de alta consistencia a partir de datos de video sin etiquetar. Aprovechando algoritmos de detección y seguimiento facial, desarrollamos un sistema automático de análisis de emociones utilizando un modelo de lenguaje multimodal de gran escala (MLLM). Nuestros resultados demuestran que MIKU-PAL puede alcanzar una precisión a nivel humano (68.5% en MELD) y una consistencia superior (puntuación Fleiss kappa de 0.93), siendo además mucho más económico y rápido que la anotación humana. Con la anotación de alta calidad, flexible y consistente de MIKU-PAL, podemos etiquetar categorías de emociones en el habla de hasta 26 tipos, validadas por anotadores humanos con un 83% de calificaciones de racionalidad. Basándonos en nuestro sistema propuesto, hemos lanzado además un conjunto de datos de habla emocional detallado, MIKU-EmoBench (131.2 horas), como un nuevo punto de referencia para la conversión de texto a voz emocional y la clonación visual de voz.
English
Acquiring large-scale emotional speech data with strong consistency remains a challenge for speech synthesis. This paper presents MIKU-PAL, a fully automated multimodal pipeline for extracting high-consistency emotional speech from unlabeled video data. Leveraging face detection and tracking algorithms, we developed an automatic emotion analysis system using a multimodal large language model (MLLM). Our results demonstrate that MIKU-PAL can achieve human-level accuracy (68.5% on MELD) and superior consistency (0.93 Fleiss kappa score) while being much cheaper and faster than human annotation. With the high-quality, flexible, and consistent annotation from MIKU-PAL, we can annotate fine-grained speech emotion categories of up to 26 types, validated by human annotators with 83% rationality ratings. Based on our proposed system, we further released a fine-grained emotional speech dataset MIKU-EmoBench(131.2 hours) as a new benchmark for emotional text-to-speech and visual voice cloning.
PDF22June 3, 2025