Revisitando Abordagens de Modelagem e Avaliação no Reconhecimento de Emoções na Fala: Considerando a Subjetividade dos Anotadores e a Ambiguidade das Emoções
Revisiting Modeling and Evaluation Approaches in Speech Emotion Recognition: Considering Subjectivity of Annotators and Ambiguity of Emotions
October 7, 2025
Autores: Huang-Cheng Chou, Chi-Chun Lee
cs.AI
Resumo
Nas últimas duas décadas, o reconhecimento de emoções em fala (SER, do inglês Speech Emotion Recognition) tem recebido crescente atenção. Para treinar sistemas SER, pesquisadores coletam bancos de dados de fala emocional anotados por avaliadores crowdsourced ou internos, que selecionam emoções de categorias predefinidas. No entanto, discordâncias entre os avaliadores são comuns. Métodos convencionais tratam essas discordâncias como ruído, agregando as etiquetas em um único alvo de consenso. Embora isso simplifique o SER como uma tarefa de etiquetagem única, ignora a subjetividade inerente da percepção humana das emoções. Esta dissertação desafia tais pressupostos e questiona: (1) As avaliações emocionais minoritárias devem ser descartadas? (2) Os sistemas SER devem aprender apenas com a percepção de poucos indivíduos? (3) Os sistemas SER devem prever apenas uma emoção por amostra?
Estudos psicológicos mostram que a percepção emocional é subjetiva e ambígua, com limites emocionais sobrepostos. Propomos novas perspectivas de modelagem e avaliação: (1) Manter todas as avaliações emocionais e representá-las com distribuições de etiquetas suaves. Modelos treinados com avaliações individuais dos anotadores e otimizados conjuntamente com sistemas SER padrão melhoram o desempenho em testes com etiquetas de consenso. (2) Redefinir a avaliação do SER, incluindo todos os dados emocionais e permitindo emoções co-ocorrentes (por exemplo, triste e irritado). Propomos uma "regra inclusiva" que agrega todas as avaliações para maximizar a diversidade na representação das etiquetas. Experimentos em quatro bancos de dados de emoções em inglês mostram desempenho superior em relação à etiquetagem por maioria ou pluralidade. (3) Construir uma matriz de penalização para desencorajar combinações improváveis de emoções durante o treinamento. Integrá-la às funções de perda melhora ainda mais o desempenho. No geral, abraçar avaliações minoritárias, múltiplos anotadores e previsões de múltiplas emoções resulta em sistemas SER mais robustos e alinhados com a percepção humana.
English
Over the past two decades, speech emotion recognition (SER) has received
growing attention. To train SER systems, researchers collect emotional speech
databases annotated by crowdsourced or in-house raters who select emotions from
predefined categories. However, disagreements among raters are common.
Conventional methods treat these disagreements as noise, aggregating labels
into a single consensus target. While this simplifies SER as a single-label
task, it ignores the inherent subjectivity of human emotion perception. This
dissertation challenges such assumptions and asks: (1) Should minority
emotional ratings be discarded? (2) Should SER systems learn from only a few
individuals' perceptions? (3) Should SER systems predict only one emotion per
sample?
  Psychological studies show that emotion perception is subjective and
ambiguous, with overlapping emotional boundaries. We propose new modeling and
evaluation perspectives: (1) Retain all emotional ratings and represent them
with soft-label distributions. Models trained on individual annotator ratings
and jointly optimized with standard SER systems improve performance on
consensus-labeled tests. (2) Redefine SER evaluation by including all emotional
data and allowing co-occurring emotions (e.g., sad and angry). We propose an
``all-inclusive rule'' that aggregates all ratings to maximize diversity in
label representation. Experiments on four English emotion databases show
superior performance over majority and plurality labeling. (3) Construct a
penalization matrix to discourage unlikely emotion combinations during
training. Integrating it into loss functions further improves performance.
Overall, embracing minority ratings, multiple annotators, and multi-emotion
predictions yields more robust and human-aligned SER systems.