EmoNet-Voice: Un Benchmark Fine-Grained e Verificato da Esperti per il Rilevamento delle Emozioni nel Parlato

Abstract

Il progresso dei modelli di sintesi vocale e generazione audio richiede benchmark robusti per valutare le capacità di comprensione emotiva dei sistemi di intelligenza artificiale. Gli attuali dataset per il riconoscimento delle emozioni nel parlato (Speech Emotion Recognition, SER) presentano spesso limitazioni nella granularità emotiva, preoccupazioni relative alla privacy o una dipendenza da rappresentazioni recitate. Questo articolo introduce EmoNet-Voice, una nuova risorsa per il rilevamento delle emozioni nel parlato, che include EmoNet-Voice Big, un dataset su larga scala per il pre-training (con oltre 4.500 ore di parlato in 11 voci, 40 emozioni e 4 lingue), e EmoNet-Voice Bench, un nuovo dataset di benchmark con annotazioni di esperti umani. EmoNet-Voice è progettato per valutare i modelli SER su uno spettro dettagliato di 40 categorie emotive con diversi livelli di intensità. Sfruttando le più avanzate tecnologie di generazione vocale, abbiamo curato frammenti audio sintetici che simulano attori che interpretano scene progettate per evocare emozioni specifiche. In modo cruciale, abbiamo condotto una rigorosa validazione da parte di esperti di psicologia che hanno assegnato etichette di intensità percepita. Questo approccio sintetico e rispettoso della privacy consente l'inclusione di stati emotivi sensibili spesso assenti nei dataset esistenti. Infine, introduciamo i modelli Empathic Insight Voice, che stabiliscono un nuovo standard nel riconoscimento delle emozioni nel parlato con un elevato accordo con gli esperti umani. Le nostre valutazioni sull'attuale panorama dei modelli rivelano risultati significativi, come il fatto che emozioni ad alta eccitazione come la rabbia siano molto più facili da rilevare rispetto a stati a bassa eccitazione come la concentrazione.

English

The advancement of text-to-speech and audio generation models necessitates robust benchmarks for evaluating the emotional understanding capabilities of AI systems. Current speech emotion recognition (SER) datasets often exhibit limitations in emotional granularity, privacy concerns, or reliance on acted portrayals. This paper introduces EmoNet-Voice, a new resource for speech emotion detection, which includes EmoNet-Voice Big, a large-scale pre-training dataset (featuring over 4,500 hours of speech across 11 voices, 40 emotions, and 4 languages), and EmoNet-Voice Bench, a novel benchmark dataset with human expert annotations. EmoNet-Voice is designed to evaluate SER models on a fine-grained spectrum of 40 emotion categories with different levels of intensities. Leveraging state-of-the-art voice generation, we curated synthetic audio snippets simulating actors portraying scenes designed to evoke specific emotions. Crucially, we conducted rigorous validation by psychology experts who assigned perceived intensity labels. This synthetic, privacy-preserving approach allows for the inclusion of sensitive emotional states often absent in existing datasets. Lastly, we introduce Empathic Insight Voice models that set a new standard in speech emotion recognition with high agreement with human experts. Our evaluations across the current model landscape exhibit valuable findings, such as high-arousal emotions like anger being much easier to detect than low-arousal states like concentration.

EmoNet-Voice: Un Benchmark Fine-Grained e Verificato da Esperti per il Rilevamento delle Emozioni nel Parlato

EmoNet-Voice: A Fine-Grained, Expert-Verified Benchmark for Speech Emotion Detection

Abstract

Support