EmoNet-Voice: Een fijnmazige, door experts geverifieerde benchmark voor spraakemotiedetectie
EmoNet-Voice: A Fine-Grained, Expert-Verified Benchmark for Speech Emotion Detection
June 11, 2025
Auteurs: Christoph Schuhmann, Robert Kaczmarczyk, Gollam Rabby, Felix Friedrich, Maurice Kraus, Kourosh Nadi, Huu Nguyen, Kristian Kersting, Sören Auer
cs.AI
Samenvatting
De vooruitgang in tekst-naar-spraak en audiogeneratiemodellen vereist robuuste benchmarks voor het evalueren van de emotionele begripscapaciteiten van AI-systemen. Huidige datasets voor spraakemotieherkenning (SER) vertonen vaak beperkingen in emotionele granulariteit, privacyzorgen of een afhankelijkheid van gespeelde uitbeeldingen. Dit artikel introduceert EmoNet-Voice, een nieuwe bron voor spraakemotiedetectie, die bestaat uit EmoNet-Voice Big, een grootschalige pre-trainingsdataset (met meer dan 4.500 uur spraak over 11 stemmen, 40 emoties en 4 talen), en EmoNet-Voice Bench, een nieuwe benchmarkdataset met annotaties van menselijke experts. EmoNet-Voice is ontworpen om SER-modellen te evalueren op een fijnmazig spectrum van 40 emotiecategorieën met verschillende intensiteitsniveaus. Door gebruik te maken van state-of-the-art stemgeneratie hebben we synthetische audioclips samengesteld die acteurs simuleren die scènes uitbeelden die specifieke emoties moeten oproepen. Cruciaal is dat we een rigoureuze validatie hebben uitgevoerd door psychologie-experts die waargenomen intensiteitslabels hebben toegewezen. Deze synthetische, privacybeschermende aanpak maakt het mogelijk om gevoelige emotionele toestanden op te nemen die vaak ontbreken in bestaande datasets. Tot slot introduceren we Empathic Insight Voice-modellen die een nieuwe standaard zetten in spraakemotieherkenning met een hoge overeenstemming met menselijke experts. Onze evaluaties in het huidige modellenlandschap tonen waardevolle bevindingen, zoals het feit dat hoog-arousalemoties zoals woede veel gemakkelijker te detecteren zijn dan laag-arousalstatussen zoals concentratie.
English
The advancement of text-to-speech and audio generation models necessitates
robust benchmarks for evaluating the emotional understanding capabilities of AI
systems. Current speech emotion recognition (SER) datasets often exhibit
limitations in emotional granularity, privacy concerns, or reliance on acted
portrayals. This paper introduces EmoNet-Voice, a new resource for speech
emotion detection, which includes EmoNet-Voice Big, a large-scale pre-training
dataset (featuring over 4,500 hours of speech across 11 voices, 40 emotions,
and 4 languages), and EmoNet-Voice Bench, a novel benchmark dataset with human
expert annotations. EmoNet-Voice is designed to evaluate SER models on a
fine-grained spectrum of 40 emotion categories with different levels of
intensities. Leveraging state-of-the-art voice generation, we curated synthetic
audio snippets simulating actors portraying scenes designed to evoke specific
emotions. Crucially, we conducted rigorous validation by psychology experts who
assigned perceived intensity labels. This synthetic, privacy-preserving
approach allows for the inclusion of sensitive emotional states often absent in
existing datasets. Lastly, we introduce Empathic Insight Voice models that set
a new standard in speech emotion recognition with high agreement with human
experts. Our evaluations across the current model landscape exhibit valuable
findings, such as high-arousal emotions like anger being much easier to detect
than low-arousal states like concentration.