Réexamen des approches de modélisation et d'évaluation en reconnaissance des émotions dans la parole : prise en compte de la subjectivité des annotateurs et de l'ambiguïté des émotions
Revisiting Modeling and Evaluation Approaches in Speech Emotion Recognition: Considering Subjectivity of Annotators and Ambiguity of Emotions
October 7, 2025
papers.authors: Huang-Cheng Chou, Chi-Chun Lee
cs.AI
papers.abstract
Au cours des deux dernières décennies, la reconnaissance des émotions dans la parole (SER, pour *Speech Emotion Recognition*) a suscité un intérêt croissant. Pour entraîner les systèmes SER, les chercheurs collectent des bases de données de parole émotionnelle annotées par des évaluateurs externes ou internes, qui sélectionnent des émotions parmi des catégories prédéfinies. Cependant, les désaccords entre évaluateurs sont fréquents. Les méthodes conventionnelles traitent ces désaccords comme du bruit, en agrégeant les étiquettes en une cible de consensus unique. Bien que cela simplifie la SER en une tâche à étiquette unique, cela ignore la subjectivité inhérente à la perception humaine des émotions. Cette thèse remet en question ces hypothèses et pose les questions suivantes : (1) Les évaluations émotionnelles minoritaires doivent-elles être écartées ? (2) Les systèmes SER doivent-ils apprendre uniquement à partir de la perception de quelques individus ? (3) Les systèmes SER doivent-ils prédire une seule émotion par échantillon ?
Les études psychologiques montrent que la perception des émotions est subjective et ambiguë, avec des frontières émotionnelles qui se chevauchent. Nous proposons de nouvelles perspectives de modélisation et d'évaluation : (1) Conserver toutes les évaluations émotionnelles et les représenter sous forme de distributions d'étiquettes douces. Les modèles entraînés sur les évaluations individuelles des annotateurs et optimisés conjointement avec les systèmes SER standards améliorent les performances sur les tests étiquetés par consensus. (2) Redéfinir l'évaluation de la SER en incluant toutes les données émotionnelles et en permettant la co-occurrence d'émotions (par exemple, triste et en colère). Nous proposons une « règle inclusive » qui agrège toutes les évaluations pour maximiser la diversité dans la représentation des étiquettes. Les expériences sur quatre bases de données d'émotions en anglais montrent une performance supérieure à celle des méthodes de majorité et de pluralité. (3) Construire une matrice de pénalisation pour décourager les combinaisons d'émotions improbables pendant l'entraînement. Son intégration dans les fonctions de perte améliore encore les performances. Globalement, l'intégration des évaluations minoritaires, de multiples annotateurs et des prédictions multi-émotions permet d'obtenir des systèmes SER plus robustes et alignés sur la perception humaine.
English
Over the past two decades, speech emotion recognition (SER) has received
growing attention. To train SER systems, researchers collect emotional speech
databases annotated by crowdsourced or in-house raters who select emotions from
predefined categories. However, disagreements among raters are common.
Conventional methods treat these disagreements as noise, aggregating labels
into a single consensus target. While this simplifies SER as a single-label
task, it ignores the inherent subjectivity of human emotion perception. This
dissertation challenges such assumptions and asks: (1) Should minority
emotional ratings be discarded? (2) Should SER systems learn from only a few
individuals' perceptions? (3) Should SER systems predict only one emotion per
sample?
Psychological studies show that emotion perception is subjective and
ambiguous, with overlapping emotional boundaries. We propose new modeling and
evaluation perspectives: (1) Retain all emotional ratings and represent them
with soft-label distributions. Models trained on individual annotator ratings
and jointly optimized with standard SER systems improve performance on
consensus-labeled tests. (2) Redefine SER evaluation by including all emotional
data and allowing co-occurring emotions (e.g., sad and angry). We propose an
``all-inclusive rule'' that aggregates all ratings to maximize diversity in
label representation. Experiments on four English emotion databases show
superior performance over majority and plurality labeling. (3) Construct a
penalization matrix to discourage unlikely emotion combinations during
training. Integrating it into loss functions further improves performance.
Overall, embracing minority ratings, multiple annotators, and multi-emotion
predictions yields more robust and human-aligned SER systems.