ChatPaper.aiChatPaper

Herziening van Modellerings- en Evaluatiebenaderingen in Spraakemotieherkenning: Rekening Houden met de Subjectiviteit van Annotators en de Ambiguïteit van Emoties

Revisiting Modeling and Evaluation Approaches in Speech Emotion Recognition: Considering Subjectivity of Annotators and Ambiguity of Emotions

October 7, 2025
Auteurs: Huang-Cheng Chou, Chi-Chun Lee
cs.AI

Samenvatting

In de afgelopen twee decennia heeft spraakemotieherkenning (Speech Emotion Recognition, SER) steeds meer aandacht gekregen. Om SER-systemen te trainen, verzamelen onderzoekers emotionele spraakdatabases die geannoteerd zijn door crowdsourced of interne beoordelaars die emoties selecteren uit vooraf gedefinieerde categorieën. Echter, onenigheid tussen beoordelaars komt vaak voor. Traditionele methoden behandelen deze onenigheid als ruis en aggregeren de labels tot een enkel consensusdoel. Hoewel dit SER vereenvoudigt als een enkel-labeltaak, negeert het de inherente subjectiviteit van menselijke emotieperceptie. Dit proefschrift daagt dergelijke aannames uit en stelt de volgende vragen: (1) Moeten minderheidsemotiebeoordelingen worden weggegooid? (2) Moeten SER-systemen leren van slechts enkele individuele percepties? (3) Moeten SER-systemen slechts één emotie per sample voorspellen? Psychologische studies tonen aan dat emotieperceptie subjectief en ambigu is, met overlappende emotiegrenzen. Wij stellen nieuwe modellerings- en evaluatieperspectieven voor: (1) Behoud alle emotiebeoordelingen en representeer ze met zachte-labeldistributies. Modellen die getraind zijn op individuele annotatorbeoordelingen en gezamenlijk geoptimaliseerd met standaard SER-systemen, verbeteren de prestaties op consensus-gelabelde tests. (2) Herdefinieer SER-evaluatie door alle emotionele data op te nemen en gelijktijdig voorkomende emoties toe te staan (bijvoorbeeld verdrietig en boos). Wij stellen een "all-inclusive regel" voor die alle beoordelingen aggregeert om de diversiteit in labelrepresentatie te maximaliseren. Experimenten op vier Engelse emotiedatabases tonen superieure prestaties aan ten opzichte van meerderheids- en pluraliteitslabeling. (3) Construeer een strafmatrix om onwaarschijnlijke emotiecombinaties tijdens de training te ontmoedigen. Het integreren hiervan in verliesfuncties verbetert de prestaties verder. Over het geheel genomen leidt het omarmen van minderheidsbeoordelingen, meerdere annotators en multi-emotievoorspellingen tot robuustere en meer mensgerichte SER-systemen.
English
Over the past two decades, speech emotion recognition (SER) has received growing attention. To train SER systems, researchers collect emotional speech databases annotated by crowdsourced or in-house raters who select emotions from predefined categories. However, disagreements among raters are common. Conventional methods treat these disagreements as noise, aggregating labels into a single consensus target. While this simplifies SER as a single-label task, it ignores the inherent subjectivity of human emotion perception. This dissertation challenges such assumptions and asks: (1) Should minority emotional ratings be discarded? (2) Should SER systems learn from only a few individuals' perceptions? (3) Should SER systems predict only one emotion per sample? Psychological studies show that emotion perception is subjective and ambiguous, with overlapping emotional boundaries. We propose new modeling and evaluation perspectives: (1) Retain all emotional ratings and represent them with soft-label distributions. Models trained on individual annotator ratings and jointly optimized with standard SER systems improve performance on consensus-labeled tests. (2) Redefine SER evaluation by including all emotional data and allowing co-occurring emotions (e.g., sad and angry). We propose an ``all-inclusive rule'' that aggregates all ratings to maximize diversity in label representation. Experiments on four English emotion databases show superior performance over majority and plurality labeling. (3) Construct a penalization matrix to discourage unlikely emotion combinations during training. Integrating it into loss functions further improves performance. Overall, embracing minority ratings, multiple annotators, and multi-emotion predictions yields more robust and human-aligned SER systems.
PDF22October 8, 2025