Réexamen des approches de modélisation et d'évaluation en reconnaissance des émotions dans la parole : prise en compte de la subjectivité des annotateurs et de l'ambiguïté des émotions

papers.abstract

Au cours des deux dernières décennies, la reconnaissance des émotions dans la parole (SER, pour *Speech Emotion Recognition*) a suscité un intérêt croissant. Pour entraîner les systèmes SER, les chercheurs collectent des bases de données de parole émotionnelle annotées par des évaluateurs externes ou internes, qui sélectionnent des émotions parmi des catégories prédéfinies. Cependant, les désaccords entre évaluateurs sont fréquents. Les méthodes conventionnelles traitent ces désaccords comme du bruit, en agrégeant les étiquettes en une cible de consensus unique. Bien que cela simplifie la SER en une tâche à étiquette unique, cela ignore la subjectivité inhérente à la perception humaine des émotions. Cette thèse remet en question ces hypothèses et pose les questions suivantes : (1) Les évaluations émotionnelles minoritaires doivent-elles être écartées ? (2) Les systèmes SER doivent-ils apprendre uniquement à partir de la perception de quelques individus ? (3) Les systèmes SER doivent-ils prédire une seule émotion par échantillon ? Les études psychologiques montrent que la perception des émotions est subjective et ambiguë, avec des frontières émotionnelles qui se chevauchent. Nous proposons de nouvelles perspectives de modélisation et d'évaluation : (1) Conserver toutes les évaluations émotionnelles et les représenter sous forme de distributions d'étiquettes douces. Les modèles entraînés sur les évaluations individuelles des annotateurs et optimisés conjointement avec les systèmes SER standards améliorent les performances sur les tests étiquetés par consensus. (2) Redéfinir l'évaluation de la SER en incluant toutes les données émotionnelles et en permettant la co-occurrence d'émotions (par exemple, triste et en colère). Nous proposons une « règle inclusive » qui agrège toutes les évaluations pour maximiser la diversité dans la représentation des étiquettes. Les expériences sur quatre bases de données d'émotions en anglais montrent une performance supérieure à celle des méthodes de majorité et de pluralité. (3) Construire une matrice de pénalisation pour décourager les combinaisons d'émotions improbables pendant l'entraînement. Son intégration dans les fonctions de perte améliore encore les performances. Globalement, l'intégration des évaluations minoritaires, de multiples annotateurs et des prédictions multi-émotions permet d'obtenir des systèmes SER plus robustes et alignés sur la perception humaine.

English

Over the past two decades, speech emotion recognition (SER) has received growing attention. To train SER systems, researchers collect emotional speech databases annotated by crowdsourced or in-house raters who select emotions from predefined categories. However, disagreements among raters are common. Conventional methods treat these disagreements as noise, aggregating labels into a single consensus target. While this simplifies SER as a single-label task, it ignores the inherent subjectivity of human emotion perception. This dissertation challenges such assumptions and asks: (1) Should minority emotional ratings be discarded? (2) Should SER systems learn from only a few individuals' perceptions? (3) Should SER systems predict only one emotion per sample? Psychological studies show that emotion perception is subjective and ambiguous, with overlapping emotional boundaries. We propose new modeling and evaluation perspectives: (1) Retain all emotional ratings and represent them with soft-label distributions. Models trained on individual annotator ratings and jointly optimized with standard SER systems improve performance on consensus-labeled tests. (2) Redefine SER evaluation by including all emotional data and allowing co-occurring emotions (e.g., sad and angry). We propose an ``all-inclusive rule'' that aggregates all ratings to maximize diversity in label representation. Experiments on four English emotion databases show superior performance over majority and plurality labeling. (3) Construct a penalization matrix to discourage unlikely emotion combinations during training. Integrating it into loss functions further improves performance. Overall, embracing minority ratings, multiple annotators, and multi-emotion predictions yields more robust and human-aligned SER systems.

Réexamen des approches de modélisation et d'évaluation en reconnaissance des émotions dans la parole : prise en compte de la subjectivité des annotateurs et de l'ambiguïté des émotions

Revisiting Modeling and Evaluation Approaches in Speech Emotion Recognition: Considering Subjectivity of Annotators and Ambiguity of Emotions

papers.abstract

Support