Пересмотр подходов к моделированию и оценке в распознавании эмоций в речи: учет субъективности аннотаторов и неоднозначности эмоций

Аннотация

За последние два десятилетия распознавание эмоций по речи (SER) привлекает все больше внимания. Для обучения систем SER исследователи собирают базы данных эмоциональной речи, аннотированные краудсорсинговыми или внутренними оценщиками, которые выбирают эмоции из заранее определенных категорий. Однако разногласия между оценщиками встречаются часто. Традиционные методы рассматривают эти разногласия как шум, агрегируя метки в единый консенсусный целевой показатель. Хотя это упрощает SER как задачу с одной меткой, такой подход игнорирует присущую субъективность восприятия человеческих эмоций. Данная диссертация ставит под сомнение такие предположения и задает вопросы: (1) Следует ли отбрасывать редкие эмоциональные оценки? (2) Должны ли системы SER обучаться только на восприятии нескольких индивидуумов? (3) Должны ли системы SER предсказывать только одну эмоцию на образец? Психологические исследования показывают, что восприятие эмоций субъективно и неоднозначно, с пересекающимися границами эмоций. Мы предлагаем новые подходы к моделированию и оценке: (1) Сохранять все эмоциональные оценки и представлять их с помощью распределений мягких меток. Модели, обученные на индивидуальных оценках аннотаторов и совместно оптимизированные с традиционными системами SER, показывают улучшенную производительность на тестах с консенсусными метками. (2) Переопределить оценку SER, включая все эмоциональные данные и допуская сосуществующие эмоции (например, грусть и гнев). Мы предлагаем «всеобъемлющее правило», которое агрегирует все оценки для максимизации разнообразия в представлении меток. Эксперименты на четырех английских базах данных эмоций демонстрируют превосходную производительность по сравнению с методами большинства и множественности меток. (3) Создать матрицу штрафов, чтобы исключить маловероятные комбинации эмоций во время обучения. Интеграция этой матрицы в функции потерь дополнительно улучшает производительность. В целом, учет редких оценок, множественных аннотаторов и предсказания нескольких эмоций позволяет создавать более надежные и соответствующие человеческому восприятию системы SER.

English

Over the past two decades, speech emotion recognition (SER) has received growing attention. To train SER systems, researchers collect emotional speech databases annotated by crowdsourced or in-house raters who select emotions from predefined categories. However, disagreements among raters are common. Conventional methods treat these disagreements as noise, aggregating labels into a single consensus target. While this simplifies SER as a single-label task, it ignores the inherent subjectivity of human emotion perception. This dissertation challenges such assumptions and asks: (1) Should minority emotional ratings be discarded? (2) Should SER systems learn from only a few individuals' perceptions? (3) Should SER systems predict only one emotion per sample? Psychological studies show that emotion perception is subjective and ambiguous, with overlapping emotional boundaries. We propose new modeling and evaluation perspectives: (1) Retain all emotional ratings and represent them with soft-label distributions. Models trained on individual annotator ratings and jointly optimized with standard SER systems improve performance on consensus-labeled tests. (2) Redefine SER evaluation by including all emotional data and allowing co-occurring emotions (e.g., sad and angry). We propose an ``all-inclusive rule'' that aggregates all ratings to maximize diversity in label representation. Experiments on four English emotion databases show superior performance over majority and plurality labeling. (3) Construct a penalization matrix to discourage unlikely emotion combinations during training. Integrating it into loss functions further improves performance. Overall, embracing minority ratings, multiple annotators, and multi-emotion predictions yields more robust and human-aligned SER systems.