Revisando Enfoques de Modelado y Evaluación en el Reconocimiento de Emociones en el Habla: Considerando la Subjetividad de los Anotadores y la Ambigüedad de las Emociones
Revisiting Modeling and Evaluation Approaches in Speech Emotion Recognition: Considering Subjectivity of Annotators and Ambiguity of Emotions
October 7, 2025
Autores: Huang-Cheng Chou, Chi-Chun Lee
cs.AI
Resumen
En las últimas dos décadas, el reconocimiento de emociones en el habla (SER, por sus siglas en inglés) ha recibido una atención creciente. Para entrenar sistemas SER, los investigadores recopilan bases de datos de habla emocional anotadas por evaluadores externos o internos, quienes seleccionan emociones de categorías predefinidas. Sin embargo, los desacuerdos entre los evaluadores son comunes. Los métodos convencionales tratan estos desacuerdos como ruido, agregando las etiquetas en un único objetivo consensuado. Si bien esto simplifica el SER como una tarea de etiquetado único, ignora la subjetividad inherente de la percepción humana de las emociones. Esta disertación cuestiona tales supuestos y plantea: (1) ¿Deberían descartarse las valoraciones emocionales minoritarias? (2) ¿Deberían los sistemas SER aprender únicamente de las percepciones de unos pocos individuos? (3) ¿Deberían los sistemas SER predecir solo una emoción por muestra?
Estudios psicológicos muestran que la percepción de las emociones es subjetiva y ambigua, con límites emocionales superpuestos. Proponemos nuevas perspectivas de modelado y evaluación: (1) Conservar todas las valoraciones emocionales y representarlas con distribuciones de etiquetas suaves. Los modelos entrenados con las valoraciones individuales de los anotadores y optimizados conjuntamente con sistemas SER estándar mejoran el rendimiento en pruebas con etiquetas consensuadas. (2) Redefinir la evaluación del SER incluyendo todos los datos emocionales y permitiendo emociones co-ocurrentes (por ejemplo, tristeza y enojo). Proponemos una "regla inclusiva" que agrega todas las valoraciones para maximizar la diversidad en la representación de etiquetas. Los experimentos en cuatro bases de datos de emociones en inglés muestran un rendimiento superior frente al etiquetado por mayoría o pluralidad. (3) Construir una matriz de penalización para desalentar combinaciones de emociones poco probables durante el entrenamiento. Integrarla en las funciones de pérdida mejora aún más el rendimiento. En general, adoptar valoraciones minoritarias, múltiples anotadores y predicciones multi-emocionales produce sistemas SER más robustos y alineados con la percepción humana.
English
Over the past two decades, speech emotion recognition (SER) has received
growing attention. To train SER systems, researchers collect emotional speech
databases annotated by crowdsourced or in-house raters who select emotions from
predefined categories. However, disagreements among raters are common.
Conventional methods treat these disagreements as noise, aggregating labels
into a single consensus target. While this simplifies SER as a single-label
task, it ignores the inherent subjectivity of human emotion perception. This
dissertation challenges such assumptions and asks: (1) Should minority
emotional ratings be discarded? (2) Should SER systems learn from only a few
individuals' perceptions? (3) Should SER systems predict only one emotion per
sample?
Psychological studies show that emotion perception is subjective and
ambiguous, with overlapping emotional boundaries. We propose new modeling and
evaluation perspectives: (1) Retain all emotional ratings and represent them
with soft-label distributions. Models trained on individual annotator ratings
and jointly optimized with standard SER systems improve performance on
consensus-labeled tests. (2) Redefine SER evaluation by including all emotional
data and allowing co-occurring emotions (e.g., sad and angry). We propose an
``all-inclusive rule'' that aggregates all ratings to maximize diversity in
label representation. Experiments on four English emotion databases show
superior performance over majority and plurality labeling. (3) Construct a
penalization matrix to discourage unlikely emotion combinations during
training. Integrating it into loss functions further improves performance.
Overall, embracing minority ratings, multiple annotators, and multi-emotion
predictions yields more robust and human-aligned SER systems.