ChatPaper.aiChatPaper

EmoNet-Voice: Een fijnmazige, door experts geverifieerde benchmark voor spraakemotiedetectie

EmoNet-Voice: A Fine-Grained, Expert-Verified Benchmark for Speech Emotion Detection

June 11, 2025
Auteurs: Christoph Schuhmann, Robert Kaczmarczyk, Gollam Rabby, Felix Friedrich, Maurice Kraus, Kourosh Nadi, Huu Nguyen, Kristian Kersting, Sören Auer
cs.AI

Samenvatting

De vooruitgang in tekst-naar-spraak en audiogeneratiemodellen vereist robuuste benchmarks voor het evalueren van de emotionele begripscapaciteiten van AI-systemen. Huidige datasets voor spraakemotieherkenning (SER) vertonen vaak beperkingen in emotionele granulariteit, privacyzorgen of een afhankelijkheid van gespeelde uitbeeldingen. Dit artikel introduceert EmoNet-Voice, een nieuwe bron voor spraakemotiedetectie, die bestaat uit EmoNet-Voice Big, een grootschalige pre-trainingsdataset (met meer dan 4.500 uur spraak over 11 stemmen, 40 emoties en 4 talen), en EmoNet-Voice Bench, een nieuwe benchmarkdataset met annotaties van menselijke experts. EmoNet-Voice is ontworpen om SER-modellen te evalueren op een fijnmazig spectrum van 40 emotiecategorieën met verschillende intensiteitsniveaus. Door gebruik te maken van state-of-the-art stemgeneratie hebben we synthetische audioclips samengesteld die acteurs simuleren die scènes uitbeelden die specifieke emoties moeten oproepen. Cruciaal is dat we een rigoureuze validatie hebben uitgevoerd door psychologie-experts die waargenomen intensiteitslabels hebben toegewezen. Deze synthetische, privacybeschermende aanpak maakt het mogelijk om gevoelige emotionele toestanden op te nemen die vaak ontbreken in bestaande datasets. Tot slot introduceren we Empathic Insight Voice-modellen die een nieuwe standaard zetten in spraakemotieherkenning met een hoge overeenstemming met menselijke experts. Onze evaluaties in het huidige modellenlandschap tonen waardevolle bevindingen, zoals het feit dat hoog-arousalemoties zoals woede veel gemakkelijker te detecteren zijn dan laag-arousalstatussen zoals concentratie.
English
The advancement of text-to-speech and audio generation models necessitates robust benchmarks for evaluating the emotional understanding capabilities of AI systems. Current speech emotion recognition (SER) datasets often exhibit limitations in emotional granularity, privacy concerns, or reliance on acted portrayals. This paper introduces EmoNet-Voice, a new resource for speech emotion detection, which includes EmoNet-Voice Big, a large-scale pre-training dataset (featuring over 4,500 hours of speech across 11 voices, 40 emotions, and 4 languages), and EmoNet-Voice Bench, a novel benchmark dataset with human expert annotations. EmoNet-Voice is designed to evaluate SER models on a fine-grained spectrum of 40 emotion categories with different levels of intensities. Leveraging state-of-the-art voice generation, we curated synthetic audio snippets simulating actors portraying scenes designed to evoke specific emotions. Crucially, we conducted rigorous validation by psychology experts who assigned perceived intensity labels. This synthetic, privacy-preserving approach allows for the inclusion of sensitive emotional states often absent in existing datasets. Lastly, we introduce Empathic Insight Voice models that set a new standard in speech emotion recognition with high agreement with human experts. Our evaluations across the current model landscape exhibit valuable findings, such as high-arousal emotions like anger being much easier to detect than low-arousal states like concentration.
PDF172June 20, 2025