Revisando Enfoques de Modelado y Evaluación en el Reconocimiento de Emociones en el Habla: Considerando la Subjetividad de los Anotadores y la Ambigüedad de las Emociones

Resumen

En las últimas dos décadas, el reconocimiento de emociones en el habla (SER, por sus siglas en inglés) ha recibido una atención creciente. Para entrenar sistemas SER, los investigadores recopilan bases de datos de habla emocional anotadas por evaluadores externos o internos, quienes seleccionan emociones de categorías predefinidas. Sin embargo, los desacuerdos entre los evaluadores son comunes. Los métodos convencionales tratan estos desacuerdos como ruido, agregando las etiquetas en un único objetivo consensuado. Si bien esto simplifica el SER como una tarea de etiquetado único, ignora la subjetividad inherente de la percepción humana de las emociones. Esta disertación cuestiona tales supuestos y plantea: (1) ¿Deberían descartarse las valoraciones emocionales minoritarias? (2) ¿Deberían los sistemas SER aprender únicamente de las percepciones de unos pocos individuos? (3) ¿Deberían los sistemas SER predecir solo una emoción por muestra? Estudios psicológicos muestran que la percepción de las emociones es subjetiva y ambigua, con límites emocionales superpuestos. Proponemos nuevas perspectivas de modelado y evaluación: (1) Conservar todas las valoraciones emocionales y representarlas con distribuciones de etiquetas suaves. Los modelos entrenados con las valoraciones individuales de los anotadores y optimizados conjuntamente con sistemas SER estándar mejoran el rendimiento en pruebas con etiquetas consensuadas. (2) Redefinir la evaluación del SER incluyendo todos los datos emocionales y permitiendo emociones co-ocurrentes (por ejemplo, tristeza y enojo). Proponemos una "regla inclusiva" que agrega todas las valoraciones para maximizar la diversidad en la representación de etiquetas. Los experimentos en cuatro bases de datos de emociones en inglés muestran un rendimiento superior frente al etiquetado por mayoría o pluralidad. (3) Construir una matriz de penalización para desalentar combinaciones de emociones poco probables durante el entrenamiento. Integrarla en las funciones de pérdida mejora aún más el rendimiento. En general, adoptar valoraciones minoritarias, múltiples anotadores y predicciones multi-emocionales produce sistemas SER más robustos y alineados con la percepción humana.

English

Over the past two decades, speech emotion recognition (SER) has received growing attention. To train SER systems, researchers collect emotional speech databases annotated by crowdsourced or in-house raters who select emotions from predefined categories. However, disagreements among raters are common. Conventional methods treat these disagreements as noise, aggregating labels into a single consensus target. While this simplifies SER as a single-label task, it ignores the inherent subjectivity of human emotion perception. This dissertation challenges such assumptions and asks: (1) Should minority emotional ratings be discarded? (2) Should SER systems learn from only a few individuals' perceptions? (3) Should SER systems predict only one emotion per sample? Psychological studies show that emotion perception is subjective and ambiguous, with overlapping emotional boundaries. We propose new modeling and evaluation perspectives: (1) Retain all emotional ratings and represent them with soft-label distributions. Models trained on individual annotator ratings and jointly optimized with standard SER systems improve performance on consensus-labeled tests. (2) Redefine SER evaluation by including all emotional data and allowing co-occurring emotions (e.g., sad and angry). We propose an ``all-inclusive rule'' that aggregates all ratings to maximize diversity in label representation. Experiments on four English emotion databases show superior performance over majority and plurality labeling. (3) Construct a penalization matrix to discourage unlikely emotion combinations during training. Integrating it into loss functions further improves performance. Overall, embracing minority ratings, multiple annotators, and multi-emotion predictions yields more robust and human-aligned SER systems.

Revisando Enfoques de Modelado y Evaluación en el Reconocimiento de Emociones en el Habla: Considerando la Subjetividad de los Anotadores y la Ambigüedad de las Emociones

Revisiting Modeling and Evaluation Approaches in Speech Emotion Recognition: Considering Subjectivity of Annotators and Ambiguity of Emotions

Resumen

Support