음성 감정 인식의 모델링 및 평가 방법 재고: 주석자의 주관성과 감정의 모호성 고찰
Revisiting Modeling and Evaluation Approaches in Speech Emotion Recognition: Considering Subjectivity of Annotators and Ambiguity of Emotions
October 7, 2025
저자: Huang-Cheng Chou, Chi-Chun Lee
cs.AI
초록
지난 20년 동안 음성 감정 인식(Speech Emotion Recognition, SER)은 점점 더 많은 관심을 받아왔다. SER 시스템을 훈련시키기 위해 연구자들은 미리 정의된 범주에서 감정을 선택하는 크라우드소싱 또는 내부 평가자들이 주석을 단 감정 음성 데이터베이스를 수집한다. 그러나 평가자들 간의 의견 불일치는 흔히 발생한다. 기존의 방법들은 이러한 불일치를 노이즈로 간주하고 레이블을 단일 합의 목표로 집계한다. 이는 SER을 단일 레이블 작업으로 단순화하지만, 인간의 감정 인식에 내재된 주관성을 무시한다. 이 논문은 이러한 가정에 도전하며 다음과 같은 질문을 제기한다: (1) 소수 감정 평가는 폐기되어야 하는가? (2) SER 시스템은 소수 개인의 인식에서만 학습해야 하는가? (3) SER 시스템은 샘플당 하나의 감정만 예측해야 하는가?
심리학 연구는 감정 인식이 주관적이고 모호하며 감정 경계가 중첩될 수 있음을 보여준다. 우리는 새로운 모델링 및 평가 관점을 제안한다: (1) 모든 감정 평가를 유지하고 이를 소프트 레이블 분포로 표현한다. 개별 평가자 레이블로 훈련된 모델은 표준 SER 시스템과 공동 최적화를 통해 합의 레이블 테스트에서 성능을 향상시킨다. (2) 모든 감정 데이터를 포함하고 공존하는 감정(예: 슬픔과 분노)을 허용함으로써 SER 평가를 재정의한다. 우리는 레이블 표현의 다양성을 극대화하기 위해 모든 평가를 집계하는 "포괄적 규칙"을 제안한다. 네 개의 영어 감정 데이터베이스에서의 실험은 다수결 및 복수 레이블링보다 우수한 성능을 보여준다. (3) 훈련 중에 발생 가능성이 낮은 감정 조합을 억제하기 위해 패널티 매트릭스를 구성한다. 이를 손실 함수에 통합하면 성능이 더욱 향상된다. 전반적으로, 소수 평가, 다중 평가자, 그리고 다중 감정 예측을 수용함으로써 더 강력하고 인간과 일치하는 SER 시스템을 구축할 수 있다.
English
Over the past two decades, speech emotion recognition (SER) has received
growing attention. To train SER systems, researchers collect emotional speech
databases annotated by crowdsourced or in-house raters who select emotions from
predefined categories. However, disagreements among raters are common.
Conventional methods treat these disagreements as noise, aggregating labels
into a single consensus target. While this simplifies SER as a single-label
task, it ignores the inherent subjectivity of human emotion perception. This
dissertation challenges such assumptions and asks: (1) Should minority
emotional ratings be discarded? (2) Should SER systems learn from only a few
individuals' perceptions? (3) Should SER systems predict only one emotion per
sample?
Psychological studies show that emotion perception is subjective and
ambiguous, with overlapping emotional boundaries. We propose new modeling and
evaluation perspectives: (1) Retain all emotional ratings and represent them
with soft-label distributions. Models trained on individual annotator ratings
and jointly optimized with standard SER systems improve performance on
consensus-labeled tests. (2) Redefine SER evaluation by including all emotional
data and allowing co-occurring emotions (e.g., sad and angry). We propose an
``all-inclusive rule'' that aggregates all ratings to maximize diversity in
label representation. Experiments on four English emotion databases show
superior performance over majority and plurality labeling. (3) Construct a
penalization matrix to discourage unlikely emotion combinations during
training. Integrating it into loss functions further improves performance.
Overall, embracing minority ratings, multiple annotators, and multi-emotion
predictions yields more robust and human-aligned SER systems.