Пересмотр подходов к моделированию и оценке в распознавании эмоций в речи: учет субъективности аннотаторов и неоднозначности эмоций
Revisiting Modeling and Evaluation Approaches in Speech Emotion Recognition: Considering Subjectivity of Annotators and Ambiguity of Emotions
October 7, 2025
Авторы: Huang-Cheng Chou, Chi-Chun Lee
cs.AI
Аннотация
За последние два десятилетия распознавание эмоций по речи (SER) привлекает все больше внимания. Для обучения систем SER исследователи собирают базы данных эмоциональной речи, аннотированные краудсорсинговыми или внутренними оценщиками, которые выбирают эмоции из заранее определенных категорий. Однако разногласия между оценщиками встречаются часто. Традиционные методы рассматривают эти разногласия как шум, агрегируя метки в единый консенсусный целевой показатель. Хотя это упрощает SER как задачу с одной меткой, такой подход игнорирует присущую субъективность восприятия человеческих эмоций. Данная диссертация ставит под сомнение такие предположения и задает вопросы: (1) Следует ли отбрасывать редкие эмоциональные оценки? (2) Должны ли системы SER обучаться только на восприятии нескольких индивидуумов? (3) Должны ли системы SER предсказывать только одну эмоцию на образец?
Психологические исследования показывают, что восприятие эмоций субъективно и неоднозначно, с пересекающимися границами эмоций. Мы предлагаем новые подходы к моделированию и оценке: (1) Сохранять все эмоциональные оценки и представлять их с помощью распределений мягких меток. Модели, обученные на индивидуальных оценках аннотаторов и совместно оптимизированные с традиционными системами SER, показывают улучшенную производительность на тестах с консенсусными метками. (2) Переопределить оценку SER, включая все эмоциональные данные и допуская сосуществующие эмоции (например, грусть и гнев). Мы предлагаем «всеобъемлющее правило», которое агрегирует все оценки для максимизации разнообразия в представлении меток. Эксперименты на четырех английских базах данных эмоций демонстрируют превосходную производительность по сравнению с методами большинства и множественности меток. (3) Создать матрицу штрафов, чтобы исключить маловероятные комбинации эмоций во время обучения. Интеграция этой матрицы в функции потерь дополнительно улучшает производительность. В целом, учет редких оценок, множественных аннотаторов и предсказания нескольких эмоций позволяет создавать более надежные и соответствующие человеческому восприятию системы SER.
English
Over the past two decades, speech emotion recognition (SER) has received
growing attention. To train SER systems, researchers collect emotional speech
databases annotated by crowdsourced or in-house raters who select emotions from
predefined categories. However, disagreements among raters are common.
Conventional methods treat these disagreements as noise, aggregating labels
into a single consensus target. While this simplifies SER as a single-label
task, it ignores the inherent subjectivity of human emotion perception. This
dissertation challenges such assumptions and asks: (1) Should minority
emotional ratings be discarded? (2) Should SER systems learn from only a few
individuals' perceptions? (3) Should SER systems predict only one emotion per
sample?
Psychological studies show that emotion perception is subjective and
ambiguous, with overlapping emotional boundaries. We propose new modeling and
evaluation perspectives: (1) Retain all emotional ratings and represent them
with soft-label distributions. Models trained on individual annotator ratings
and jointly optimized with standard SER systems improve performance on
consensus-labeled tests. (2) Redefine SER evaluation by including all emotional
data and allowing co-occurring emotions (e.g., sad and angry). We propose an
``all-inclusive rule'' that aggregates all ratings to maximize diversity in
label representation. Experiments on four English emotion databases show
superior performance over majority and plurality labeling. (3) Construct a
penalization matrix to discourage unlikely emotion combinations during
training. Integrating it into loss functions further improves performance.
Overall, embracing minority ratings, multiple annotators, and multi-emotion
predictions yields more robust and human-aligned SER systems.