EmoCaliber: 신뢰도 언어화 및 보정을 통한 신뢰할 수 있는 시각 감정 이해의 발전
EmoCaliber: Advancing Reliable Visual Emotion Comprehension via Confidence Verbalization and Calibration
December 17, 2025
저자: Daiqing Wu, Dongbao Yang, Can Ma. Yu Zhou
cs.AI
초록
시각적 감정 이해(VEC)는 이미지에 내재된 감정적 단서로부터 감정 극성이나 감정 범주를 추론하는 것을 목표로 합니다. 최근 멀티모달 대규모 언어 모델(MLLM)은 다양한 감정 분류 체계 아래 정의된 VEC 과제들을 통합할 수 있는 일반화 능력을 바탕으로 VEC 분야에서 널리 사용되는 패러다임을确立했습니다. 이러한 패러다임은 뚜렷한 성공을 거두고 있지만, 일반적으로 VEC를 결정론적 과제로 구성하여 모델이 각 이미지에 대해 단일하고 명확한 감정 레이블을 출력하도록 요구합니다. 이러한 구성은 감정 인식의 본질적인 주관성을 충분히 고려하지 못하며, 다른 관찰자에게 동등하게 타당할 수 있는 대체 해석들을 간과합니다. 이러한 한계를 해결하기 위해 우리는 MLLM이 감정 예측에 대한 자신의 확신을 언어화하는 능력을 갖추도록 제안합니다. 이 추가 신호는 사용자에게 대체 해석의 타당성과 MLLM의 자체 평가된 능력에 대한 추정치를 제공함으로써 실질적인 신뢰성을 향상시킵니다. 이러한 통찰을 바탕으로, 우리는 구조적 추론 능력을 점진적으로 부여하고, 확신을 언어화하도록 가르치며, 확신 표현을 보정하는 3단계 학습 프레임워크를 도입하여, VEC를 위한 확신 인식 MLLM인 EmoCaliber를 개발했습니다. 통합 벤치마크 VECBench에 대한 공정하고 포괄적인 평가를 통해 EmoCaliber는 감정 예측과 확신 추정 모두에서 기존 방법들 대비 전반적인 우수성을 입증했습니다. 이러한 결과는 우리 접근법의 효과성을 검증하고, 더 신뢰할 수 있는 VEC 시스템을 향한 실현 가능한 한 걸음을 내디딘 것입니다. 프로젝트 페이지: https://github.com/wdqqdw/EmoCaliber.
English
Visual Emotion Comprehension (VEC) aims to infer sentiment polarities or emotion categories from affective cues embedded in images. In recent years, Multimodal Large Language Models (MLLMs) have established a popular paradigm in VEC, leveraging their generalizability to unify VEC tasks defined under diverse emotion taxonomies. While this paradigm achieves notable success, it typically formulates VEC as a deterministic task, requiring the model to output a single, definitive emotion label for each image. Such a formulation insufficiently accounts for the inherent subjectivity of emotion perception, overlooking alternative interpretations that may be equally plausible to different viewers. To address this limitation, we propose equipping MLLMs with capabilities to verbalize their confidence in emotion predictions. This additional signal provides users with an estimate of both the plausibility of alternative interpretations and the MLLMs' self-assessed competence, thereby enhancing reliability in practice. Building on this insight, we introduce a three-stage training framework that progressively endows with structured reasoning, teaches to verbalize confidence, and calibrates confidence expression, culminating in EmoCaliber, a confidence-aware MLLM for VEC. Through fair and comprehensive evaluations on the unified benchmark VECBench, EmoCaliber demonstrates overall superiority against existing methods in both emotion prediction and confidence estimation. These results validate the effectiveness of our approach and mark a feasible step toward more reliable VEC systems. Project page: https://github.com/wdqqdw/EmoCaliber.