Neubewertung von Modellierungs- und Evaluierungsansätzen in der Spracherkennung von Emotionen: Berücksichtigung der Subjektivität von Annotatoren und der Mehrdeutigkeit von Emotionen
Revisiting Modeling and Evaluation Approaches in Speech Emotion Recognition: Considering Subjectivity of Annotators and Ambiguity of Emotions
October 7, 2025
papers.authors: Huang-Cheng Chou, Chi-Chun Lee
cs.AI
papers.abstract
In den letzten zwei Jahrzehnten hat die Spracherkennung von Emotionen (Speech Emotion Recognition, SER) zunehmend Aufmerksamkeit erhalten. Um SER-Systeme zu trainieren, sammeln Forscher emotionale Sprachdatenbanken, die von Crowdsourcing- oder internen Bewertern annotiert werden, die Emotionen aus vordefinierten Kategorien auswählen. Allerdings sind Meinungsverschiedenheiten unter den Bewertern häufig. Herkömmliche Methoden behandeln diese Unstimmigkeiten als Rauschen und aggregieren die Labels zu einem einzigen Konsensziel. Während dies SER als Einzel-Label-Aufgabe vereinfacht, ignoriert es die inhärente Subjektivität der menschlichen Emotionswahrnehmung. Diese Dissertation stellt solche Annahmen in Frage und fragt: (1) Sollten Minderheitsbewertungen von Emotionen verworfen werden? (2) Sollten SER-Systeme nur von den Wahrnehmungen weniger Individuen lernen? (3) Sollten SER-Systeme nur eine Emotion pro Probe vorhersagen?
Psychologische Studien zeigen, dass die Emotionswahrnehmung subjektiv und mehrdeutig ist, mit überlappenden emotionalen Grenzen. Wir schlagen neue Modellierungs- und Bewertungsperspektiven vor: (1) Behalten Sie alle emotionalen Bewertungen bei und repräsentieren Sie sie mit Soft-Label-Verteilungen. Modelle, die auf individuellen Annotatorbewertungen trainiert und gemeinsam mit Standard-SER-Systemen optimiert werden, verbessern die Leistung bei Konsens-labelierten Tests. (2) Definieren Sie die SER-Bewertung neu, indem Sie alle emotionalen Daten einbeziehen und das gleichzeitige Auftreten von Emotionen (z. B. traurig und wütend) zulassen. Wir schlagen eine „allumfassende Regel“ vor, die alle Bewertungen aggregiert, um die Vielfalt in der Label-Darstellung zu maximieren. Experimente mit vier englischen Emotionsdatenbanken zeigen eine überlegene Leistung gegenüber Mehrheits- und Pluralitätslabeln. (3) Konstruieren Sie eine Strafmatrix, um unwahrscheinliche Emotionskombinationen während des Trainings zu vermeiden. Die Integration in Verlustfunktionen verbessert die Leistung weiter. Insgesamt führen die Berücksichtigung von Minderheitsbewertungen, mehreren Annotatoren und Multi-Emotions-Vorhersagen zu robusteren und menschlich ausgerichteten SER-Systemen.
English
Over the past two decades, speech emotion recognition (SER) has received
growing attention. To train SER systems, researchers collect emotional speech
databases annotated by crowdsourced or in-house raters who select emotions from
predefined categories. However, disagreements among raters are common.
Conventional methods treat these disagreements as noise, aggregating labels
into a single consensus target. While this simplifies SER as a single-label
task, it ignores the inherent subjectivity of human emotion perception. This
dissertation challenges such assumptions and asks: (1) Should minority
emotional ratings be discarded? (2) Should SER systems learn from only a few
individuals' perceptions? (3) Should SER systems predict only one emotion per
sample?
Psychological studies show that emotion perception is subjective and
ambiguous, with overlapping emotional boundaries. We propose new modeling and
evaluation perspectives: (1) Retain all emotional ratings and represent them
with soft-label distributions. Models trained on individual annotator ratings
and jointly optimized with standard SER systems improve performance on
consensus-labeled tests. (2) Redefine SER evaluation by including all emotional
data and allowing co-occurring emotions (e.g., sad and angry). We propose an
``all-inclusive rule'' that aggregates all ratings to maximize diversity in
label representation. Experiments on four English emotion databases show
superior performance over majority and plurality labeling. (3) Construct a
penalization matrix to discourage unlikely emotion combinations during
training. Integrating it into loss functions further improves performance.
Overall, embracing minority ratings, multiple annotators, and multi-emotion
predictions yields more robust and human-aligned SER systems.