ChatPaper.aiChatPaper

EmoCaliber: 信頼性の高い視覚的感情理解を信頼度言語化と較正によって推進

EmoCaliber: Advancing Reliable Visual Emotion Comprehension via Confidence Verbalization and Calibration

December 17, 2025
著者: Daiqing Wu, Dongbao Yang, Can Ma. Yu Zhou
cs.AI

要旨

視覚感情理解(VEC)は、画像に埋め込まれた感情的手がかりから感情の極性や感情カテゴリを推論することを目的とする。近年、マルチモーダル大規模言語モデル(MLLM)は、様々な感情分類体系で定義されたVECタスクを統一的に扱うその汎化性を活かし、VECにおいて一般的なパラダイムを確立してきた。このパラダイムは顕著な成功を収めているものの、通常、VECを決定論的タスクとして定式化し、モデルに各画像に対して単一の決定的な感情ラベルを出力させる。このような定式化は、感情知覚に内在する主観性を十分に考慮しておらず、異なる視聴者にとって同様に妥当たり得る代替的解釈を見落としている。この限界に対処するため、我々はMLLMに感情予測に対する自身の信頼度を言語化する能力を付与することを提案する。この追加的な信号は、ユーザーに代替解釈の妥当性とMLLM自身が評価した能力の両方の推定値を提供し、実践における信頼性を高める。この知見に基づき、我々は構造化推論を段階的に付与し、信頼度の言語化を教え、信頼度表現を較正する三段階のトレーニングフレームワークを導入し、信頼度を考慮したVEC向けMLLMであるEmoCaliberを開発した。統一ベンチマークVECBenchにおける公平かつ包括的な評価を通じて、EmoCaliberは感情予測と信頼度推定の両方において、既存手法に対する全体的な優位性を示した。これらの結果は我々のアプローチの有効性を実証し、より信頼性の高いVECシステムに向けた実現可能な一歩を示すものである。プロジェクトページ: https://github.com/wdqqdw/EmoCaliber。
English
Visual Emotion Comprehension (VEC) aims to infer sentiment polarities or emotion categories from affective cues embedded in images. In recent years, Multimodal Large Language Models (MLLMs) have established a popular paradigm in VEC, leveraging their generalizability to unify VEC tasks defined under diverse emotion taxonomies. While this paradigm achieves notable success, it typically formulates VEC as a deterministic task, requiring the model to output a single, definitive emotion label for each image. Such a formulation insufficiently accounts for the inherent subjectivity of emotion perception, overlooking alternative interpretations that may be equally plausible to different viewers. To address this limitation, we propose equipping MLLMs with capabilities to verbalize their confidence in emotion predictions. This additional signal provides users with an estimate of both the plausibility of alternative interpretations and the MLLMs' self-assessed competence, thereby enhancing reliability in practice. Building on this insight, we introduce a three-stage training framework that progressively endows with structured reasoning, teaches to verbalize confidence, and calibrates confidence expression, culminating in EmoCaliber, a confidence-aware MLLM for VEC. Through fair and comprehensive evaluations on the unified benchmark VECBench, EmoCaliber demonstrates overall superiority against existing methods in both emotion prediction and confidence estimation. These results validate the effectiveness of our approach and mark a feasible step toward more reliable VEC systems. Project page: https://github.com/wdqqdw/EmoCaliber.
PDF01December 20, 2025