EmoNet-Voice: Um Benchmark Especializado e Verificado por Especialistas para Detecção de Emoções em Voz
EmoNet-Voice: A Fine-Grained, Expert-Verified Benchmark for Speech Emotion Detection
June 11, 2025
Autores: Christoph Schuhmann, Robert Kaczmarczyk, Gollam Rabby, Felix Friedrich, Maurice Kraus, Kourosh Nadi, Huu Nguyen, Kristian Kersting, Sören Auer
cs.AI
Resumo
O avanço dos modelos de geração de texto para fala e áudio exige benchmarks robustos para avaliar as capacidades de compreensão emocional dos sistemas de IA. Os conjuntos de dados atuais de reconhecimento de emoções na fala (Speech Emotion Recognition - SER) frequentemente apresentam limitações na granularidade emocional, preocupações com privacidade ou dependência de representações atuadas. Este artigo apresenta o EmoNet-Voice, um novo recurso para detecção de emoções na fala, que inclui o EmoNet-Voice Big, um conjunto de dados de pré-treinamento em larga escala (com mais de 4.500 horas de fala em 11 vozes, 40 emoções e 4 idiomas), e o EmoNet-Voice Bench, um novo conjunto de dados de benchmark com anotações de especialistas humanos. O EmoNet-Voice foi projetado para avaliar modelos de SER em um espectro detalhado de 40 categorias de emoções com diferentes níveis de intensidade. Aproveitando a geração de voz de última geração, selecionamos trechos de áudio sintéticos que simulam atores representando cenas projetadas para evocar emoções específicas. Crucialmente, realizamos uma validação rigorosa por psicólogos especialistas que atribuíram rótulos de intensidade percebida. Essa abordagem sintética e que preserva a privacidade permite a inclusão de estados emocionais sensíveis, frequentemente ausentes em conjuntos de dados existentes. Por fim, apresentamos os modelos Empathic Insight Voice, que estabelecem um novo padrão no reconhecimento de emoções na fala com alta concordância com especialistas humanos. Nossas avaliações no cenário atual de modelos exibem descobertas valiosas, como emoções de alta excitação, como raiva, sendo muito mais fáceis de detectar do que estados de baixa excitação, como concentração.
English
The advancement of text-to-speech and audio generation models necessitates
robust benchmarks for evaluating the emotional understanding capabilities of AI
systems. Current speech emotion recognition (SER) datasets often exhibit
limitations in emotional granularity, privacy concerns, or reliance on acted
portrayals. This paper introduces EmoNet-Voice, a new resource for speech
emotion detection, which includes EmoNet-Voice Big, a large-scale pre-training
dataset (featuring over 4,500 hours of speech across 11 voices, 40 emotions,
and 4 languages), and EmoNet-Voice Bench, a novel benchmark dataset with human
expert annotations. EmoNet-Voice is designed to evaluate SER models on a
fine-grained spectrum of 40 emotion categories with different levels of
intensities. Leveraging state-of-the-art voice generation, we curated synthetic
audio snippets simulating actors portraying scenes designed to evoke specific
emotions. Crucially, we conducted rigorous validation by psychology experts who
assigned perceived intensity labels. This synthetic, privacy-preserving
approach allows for the inclusion of sensitive emotional states often absent in
existing datasets. Lastly, we introduce Empathic Insight Voice models that set
a new standard in speech emotion recognition with high agreement with human
experts. Our evaluations across the current model landscape exhibit valuable
findings, such as high-arousal emotions like anger being much easier to detect
than low-arousal states like concentration.