ChatPaper.aiChatPaper

EmoNet-Voice: 음성 감정 탐지를 위한 세분화된 전문가 검증 벤치마크

EmoNet-Voice: A Fine-Grained, Expert-Verified Benchmark for Speech Emotion Detection

June 11, 2025
저자: Christoph Schuhmann, Robert Kaczmarczyk, Gollam Rabby, Felix Friedrich, Maurice Kraus, Kourosh Nadi, Huu Nguyen, Kristian Kersting, Sören Auer
cs.AI

초록

텍스트-음성 변환 및 오디오 생성 모델의 발전은 AI 시스템의 감정 이해 능력을 평가하기 위한 강력한 벤치마크의 필요성을 요구하고 있습니다. 현재의 음성 감정 인식(SER) 데이터셋은 감정의 세분성 부족, 프라이버시 문제, 또는 연기된 표현에 의존하는 등의 한계를 보이는 경우가 많습니다. 본 논문은 음성 감정 탐지를 위한 새로운 리소스인 EmoNet-Voice를 소개합니다. 이는 대규모 사전 학습 데이터셋인 EmoNet-Voice Big(11개의 목소리, 40가지 감정, 4개 언어로 구성된 4,500시간 이상의 음성 데이터 포함)과 인간 전문가 주석이 달린 새로운 벤치마크 데이터셋인 EmoNet-Voice Bench로 구성됩니다. EmoNet-Voice는 40가지 감정 카테고리의 세분화된 스펙트럼과 다양한 강도 수준에서 SER 모델을 평가하도록 설계되었습니다. 최첨단 음성 생성 기술을 활용하여, 특정 감정을 유발하도록 설계된 장면을 연기하는 배우를 시뮬레이션한 합성 오디오 클립을 제작했습니다. 특히, 심리학 전문가들이 감지된 강도 레이블을 부여하는 엄격한 검증을 수행했습니다. 이 합성적이고 프라이버시를 보호하는 접근 방식은 기존 데이터셋에서 종종 누락되는 민감한 감정 상태를 포함할 수 있게 합니다. 마지막으로, 인간 전문가와 높은 일치도를 보이며 음성 감정 인식에서 새로운 기준을 제시하는 Empathic Insight Voice 모델을 소개합니다. 현재 모델 환경 전반에 걸친 평가 결과, 분노와 같은 고각성 감정이 집중과 같은 저각성 상태보다 훨씬 쉽게 탐지된다는 유의미한 발견을 보여줍니다.
English
The advancement of text-to-speech and audio generation models necessitates robust benchmarks for evaluating the emotional understanding capabilities of AI systems. Current speech emotion recognition (SER) datasets often exhibit limitations in emotional granularity, privacy concerns, or reliance on acted portrayals. This paper introduces EmoNet-Voice, a new resource for speech emotion detection, which includes EmoNet-Voice Big, a large-scale pre-training dataset (featuring over 4,500 hours of speech across 11 voices, 40 emotions, and 4 languages), and EmoNet-Voice Bench, a novel benchmark dataset with human expert annotations. EmoNet-Voice is designed to evaluate SER models on a fine-grained spectrum of 40 emotion categories with different levels of intensities. Leveraging state-of-the-art voice generation, we curated synthetic audio snippets simulating actors portraying scenes designed to evoke specific emotions. Crucially, we conducted rigorous validation by psychology experts who assigned perceived intensity labels. This synthetic, privacy-preserving approach allows for the inclusion of sensitive emotional states often absent in existing datasets. Lastly, we introduce Empathic Insight Voice models that set a new standard in speech emotion recognition with high agreement with human experts. Our evaluations across the current model landscape exhibit valuable findings, such as high-arousal emotions like anger being much easier to detect than low-arousal states like concentration.
PDF142June 20, 2025