Rivalutazione degli Approcci di Modellazione e Valutazione nel Riconoscimento delle Emozioni Vocali: Considerando la Soggettività degli Annotatori e l'Ambigu
Revisiting Modeling and Evaluation Approaches in Speech Emotion Recognition: Considering Subjectivity of Annotators and Ambiguity of Emotions
October 7, 2025
Autori: Huang-Cheng Chou, Chi-Chun Lee
cs.AI
Abstract
Negli ultimi due decenni, il riconoscimento delle emozioni dal parlato (Speech Emotion Recognition, SER) ha ricevuto un'attenzione crescente. Per addestrare i sistemi SER, i ricercatori raccolgono database di parlato emotivo annotati da valutatori crowdsourced o interni, che selezionano le emozioni da categorie predefinite. Tuttavia, le discrepanze tra i valutatori sono comuni. I metodi convenzionali trattano queste discrepanze come rumore, aggregando le etichette in un unico target di consenso. Sebbene ciò semplifichi il SER come un task a etichetta singola, ignora l'intrinseca soggettività della percezione umana delle emozioni. Questa dissertazione mette in discussione tali presupposti e si chiede: (1) Le valutazioni emotive minoritarie dovrebbero essere scartate? (2) I sistemi SER dovrebbero apprendere solo dalle percezioni di pochi individui? (3) I sistemi SER dovrebbero prevedere solo un'emozione per campione?
Studi psicologici dimostrano che la percezione delle emozioni è soggettiva e ambigua, con confini emotivi sovrapposti. Proponiamo nuove prospettive di modellazione e valutazione: (1) Mantenere tutte le valutazioni emotive e rappresentarle con distribuzioni di etichette soft. Modelli addestrati sulle valutazioni dei singoli annotatori e ottimizzati congiuntamente con sistemi SER standard migliorano le prestazioni nei test con etichette di consenso. (2) Ridefinire la valutazione del SER includendo tutti i dati emotivi e consentendo emozioni co-occorrenti (ad esempio, triste e arrabbiato). Proponiamo una "regola inclusiva" che aggrega tutte le valutazioni per massimizzare la diversità nella rappresentazione delle etichette. Esperimenti su quattro database di emozioni in inglese mostrano prestazioni superiori rispetto all'etichettatura a maggioranza e pluralità. (3) Costruire una matrice di penalizzazione per scoraggiare combinazioni di emozioni improbabili durante l'addestramento. Integrarla nelle funzioni di perdita migliora ulteriormente le prestazioni. In sintesi, abbracciare le valutazioni minoritarie, più annotatori e previsioni multi-emozione produce sistemi SER più robusti e allineati con la percezione umana.
English
Over the past two decades, speech emotion recognition (SER) has received
growing attention. To train SER systems, researchers collect emotional speech
databases annotated by crowdsourced or in-house raters who select emotions from
predefined categories. However, disagreements among raters are common.
Conventional methods treat these disagreements as noise, aggregating labels
into a single consensus target. While this simplifies SER as a single-label
task, it ignores the inherent subjectivity of human emotion perception. This
dissertation challenges such assumptions and asks: (1) Should minority
emotional ratings be discarded? (2) Should SER systems learn from only a few
individuals' perceptions? (3) Should SER systems predict only one emotion per
sample?
Psychological studies show that emotion perception is subjective and
ambiguous, with overlapping emotional boundaries. We propose new modeling and
evaluation perspectives: (1) Retain all emotional ratings and represent them
with soft-label distributions. Models trained on individual annotator ratings
and jointly optimized with standard SER systems improve performance on
consensus-labeled tests. (2) Redefine SER evaluation by including all emotional
data and allowing co-occurring emotions (e.g., sad and angry). We propose an
``all-inclusive rule'' that aggregates all ratings to maximize diversity in
label representation. Experiments on four English emotion databases show
superior performance over majority and plurality labeling. (3) Construct a
penalization matrix to discourage unlikely emotion combinations during
training. Integrating it into loss functions further improves performance.
Overall, embracing minority ratings, multiple annotators, and multi-emotion
predictions yields more robust and human-aligned SER systems.