ChatPaper.aiChatPaper

MIKU-PAL: Um Método Automatizado e Padronizado Multimodal para Rotulagem Paralinguística e de Afeto em Fala

MIKU-PAL: An Automated and Standardized Multi-Modal Method for Speech Paralinguistic and Affect Labeling

May 21, 2025
Autores: Yifan Cheng, Ruoyi Zhang, Jiatong Shi
cs.AI

Resumo

A aquisição de dados de fala emocional em grande escala com alta consistência continua sendo um desafio para a síntese de fala. Este artigo apresenta o MIKU-PAL, um pipeline multimodal totalmente automatizado para extrair fala emocional de alta consistência a partir de dados de vídeo não rotulados. Utilizando algoritmos de detecção e rastreamento facial, desenvolvemos um sistema automático de análise de emoções com base em um modelo de linguagem multimodal de grande escala (MLLM). Nossos resultados demonstram que o MIKU-PAL pode alcançar precisão em nível humano (68,5% no MELD) e consistência superior (escore Fleiss kappa de 0,93), sendo muito mais barato e rápido do que a anotação humana. Com a anotação de alta qualidade, flexível e consistente do MIKU-PAL, podemos rotular categorias de emoção de fala em nível detalhado, com até 26 tipos, validados por anotadores humanos com 83% de avaliações de racionalidade. Com base no sistema proposto, lançamos ainda o conjunto de dados de fala emocional detalhado MIKU-EmoBench (131,2 horas) como um novo benchmark para síntese de fala emocional e clonagem visual de voz.
English
Acquiring large-scale emotional speech data with strong consistency remains a challenge for speech synthesis. This paper presents MIKU-PAL, a fully automated multimodal pipeline for extracting high-consistency emotional speech from unlabeled video data. Leveraging face detection and tracking algorithms, we developed an automatic emotion analysis system using a multimodal large language model (MLLM). Our results demonstrate that MIKU-PAL can achieve human-level accuracy (68.5% on MELD) and superior consistency (0.93 Fleiss kappa score) while being much cheaper and faster than human annotation. With the high-quality, flexible, and consistent annotation from MIKU-PAL, we can annotate fine-grained speech emotion categories of up to 26 types, validated by human annotators with 83% rationality ratings. Based on our proposed system, we further released a fine-grained emotional speech dataset MIKU-EmoBench(131.2 hours) as a new benchmark for emotional text-to-speech and visual voice cloning.
PDF22June 3, 2025