ChatPaper.aiChatPaper

EmoCaliber: Повышение надежности визуального распознавания эмоций через вербализацию уверенности и калибровку

EmoCaliber: Advancing Reliable Visual Emotion Comprehension via Confidence Verbalization and Calibration

December 17, 2025
Авторы: Daiqing Wu, Dongbao Yang, Can Ma. Yu Zhou
cs.AI

Аннотация

Визуальное распознавание эмоций (VEC) ставит целью вывод сентиментальных полярностей или категорий эмоций на основе аффективных сигналов, заложенных в изображениях. В последние годы мультимодальные большие языковые модели (MLLM) создали популярную парадигму в VEC, используя свою обобщающую способность для унификации задач VEC, определенных в рамках различных эмоциональных таксономий. Хотя данная парадигма демонстрирует значительный успех, она обычно формулирует VEC как детерминистическую задачу, требуя от модели вывода единственного, определенного ярлыка эмоции для каждого изображения. Такая формулировка недостаточно учитывает присущую субъективность восприятия эмоций, упуская альтернативные интерпретации, которые могут быть в равной степени правдоподобны для разных наблюдателей. Чтобы устранить этот недостаток, мы предлагаем оснастить MLLM способностью вербализировать свою уверенность в эмоциональных прогнозах. Этот дополнительный сигнал предоставляет пользователям оценку как правдоподобности альтернативных интерпретаций, так и самооценки компетентности MLLM, тем самым повышая надежность на практике. Основываясь на этом insight, мы представляем трехэтапную framework обучения, которая последовательно наделяет модель структурированными рассуждениями, учит вербализировать уверенность и калибрует выражение уверенности, culminая в создании EmoCaliber — confidence-aware MLLM для VEC. В ходе объективных и всесторонних оценок на унифицированном benchmark VECBench, EmoCaliber продемонстрировала общее превосходство над существующими методами как в прогнозировании эмоций, так и в оценке уверенности. Эти результаты подтверждают эффективность нашего подхода и обозначают осуществимый шаг к созданию более надежных систем VEC. Страница проекта: https://github.com/wdqqdw/EmoCaliber.
English
Visual Emotion Comprehension (VEC) aims to infer sentiment polarities or emotion categories from affective cues embedded in images. In recent years, Multimodal Large Language Models (MLLMs) have established a popular paradigm in VEC, leveraging their generalizability to unify VEC tasks defined under diverse emotion taxonomies. While this paradigm achieves notable success, it typically formulates VEC as a deterministic task, requiring the model to output a single, definitive emotion label for each image. Such a formulation insufficiently accounts for the inherent subjectivity of emotion perception, overlooking alternative interpretations that may be equally plausible to different viewers. To address this limitation, we propose equipping MLLMs with capabilities to verbalize their confidence in emotion predictions. This additional signal provides users with an estimate of both the plausibility of alternative interpretations and the MLLMs' self-assessed competence, thereby enhancing reliability in practice. Building on this insight, we introduce a three-stage training framework that progressively endows with structured reasoning, teaches to verbalize confidence, and calibrates confidence expression, culminating in EmoCaliber, a confidence-aware MLLM for VEC. Through fair and comprehensive evaluations on the unified benchmark VECBench, EmoCaliber demonstrates overall superiority against existing methods in both emotion prediction and confidence estimation. These results validate the effectiveness of our approach and mark a feasible step toward more reliable VEC systems. Project page: https://github.com/wdqqdw/EmoCaliber.
PDF01December 20, 2025