EmoNet-Voice: Un Benchmark Fine-Grained e Verificato da Esperti per il Rilevamento delle Emozioni nel Parlato
EmoNet-Voice: A Fine-Grained, Expert-Verified Benchmark for Speech Emotion Detection
June 11, 2025
Autori: Christoph Schuhmann, Robert Kaczmarczyk, Gollam Rabby, Felix Friedrich, Maurice Kraus, Kourosh Nadi, Huu Nguyen, Kristian Kersting, Sören Auer
cs.AI
Abstract
Il progresso dei modelli di sintesi vocale e generazione audio richiede benchmark robusti per valutare le capacità di comprensione emotiva dei sistemi di intelligenza artificiale. Gli attuali dataset per il riconoscimento delle emozioni nel parlato (Speech Emotion Recognition, SER) presentano spesso limitazioni nella granularità emotiva, preoccupazioni relative alla privacy o una dipendenza da rappresentazioni recitate. Questo articolo introduce EmoNet-Voice, una nuova risorsa per il rilevamento delle emozioni nel parlato, che include EmoNet-Voice Big, un dataset su larga scala per il pre-training (con oltre 4.500 ore di parlato in 11 voci, 40 emozioni e 4 lingue), e EmoNet-Voice Bench, un nuovo dataset di benchmark con annotazioni di esperti umani. EmoNet-Voice è progettato per valutare i modelli SER su uno spettro dettagliato di 40 categorie emotive con diversi livelli di intensità. Sfruttando le più avanzate tecnologie di generazione vocale, abbiamo curato frammenti audio sintetici che simulano attori che interpretano scene progettate per evocare emozioni specifiche. In modo cruciale, abbiamo condotto una rigorosa validazione da parte di esperti di psicologia che hanno assegnato etichette di intensità percepita. Questo approccio sintetico e rispettoso della privacy consente l'inclusione di stati emotivi sensibili spesso assenti nei dataset esistenti. Infine, introduciamo i modelli Empathic Insight Voice, che stabiliscono un nuovo standard nel riconoscimento delle emozioni nel parlato con un elevato accordo con gli esperti umani. Le nostre valutazioni sull'attuale panorama dei modelli rivelano risultati significativi, come il fatto che emozioni ad alta eccitazione come la rabbia siano molto più facili da rilevare rispetto a stati a bassa eccitazione come la concentrazione.
English
The advancement of text-to-speech and audio generation models necessitates
robust benchmarks for evaluating the emotional understanding capabilities of AI
systems. Current speech emotion recognition (SER) datasets often exhibit
limitations in emotional granularity, privacy concerns, or reliance on acted
portrayals. This paper introduces EmoNet-Voice, a new resource for speech
emotion detection, which includes EmoNet-Voice Big, a large-scale pre-training
dataset (featuring over 4,500 hours of speech across 11 voices, 40 emotions,
and 4 languages), and EmoNet-Voice Bench, a novel benchmark dataset with human
expert annotations. EmoNet-Voice is designed to evaluate SER models on a
fine-grained spectrum of 40 emotion categories with different levels of
intensities. Leveraging state-of-the-art voice generation, we curated synthetic
audio snippets simulating actors portraying scenes designed to evoke specific
emotions. Crucially, we conducted rigorous validation by psychology experts who
assigned perceived intensity labels. This synthetic, privacy-preserving
approach allows for the inclusion of sensitive emotional states often absent in
existing datasets. Lastly, we introduce Empathic Insight Voice models that set
a new standard in speech emotion recognition with high agreement with human
experts. Our evaluations across the current model landscape exhibit valuable
findings, such as high-arousal emotions like anger being much easier to detect
than low-arousal states like concentration.