EmoCaliber: Avançando a Compreensão Visual de Emoções Confiável por meio de Verbalização e Calibração de Confiança

Resumo

A Compreensão Visual de Emoções (CVE) tem como objetivo inferir polaridades de sentimento ou categorias de emoção a partir de pistas afetivas incorporadas em imagens. Nos últimos anos, os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) estabeleceram um paradigma popular na CVE, aproveitando sua generalizabilidade para unificar tarefas de CVE definidas sob diversas taxonomias de emoção. Embora esse paradigma alcance sucesso notável, ele tipicamente formula a CVE como uma tarefa determinística, exigindo que o modelo produza um único rótulo de emoção definitivo para cada imagem. Tal formulação não leva suficientemente em conta a subjetividade inerente à percepção emocional, negligenciando interpretações alternativas que podem ser igualmente plausíveis para diferentes observadores. Para superar essa limitação, propomos equipar os MLLMs com capacidades para verbalizar sua confiança nas previsões de emoção. Este sinal adicional fornece aos usuários uma estimativa tanto da plausibilidade de interpretações alternativas quanto da competência autoavaliada dos MLLMs, aumentando assim a confiabilidade na prática. Com base nessa ideia, introduzimos uma estrutura de treinamento em três estágios que progressivamente dota o modelo de raciocínio estruturado, ensina-o a verbalizar a confiança e calibra a expressão dessa confiança, culminando no EmoCaliber, um MLLM consciente da confiança para CVE. Por meio de avaliações justas e abrangentes no benchmark unificado VECBench, o EmoCaliber demonstra superioridade geral em relação aos métodos existentes tanto na previsão de emoções quanto na estimativa de confiança. Esses resultados validam a eficácia de nossa abordagem e marcam um passo viável em direção a sistemas de CVE mais confiáveis. Página do projeto: https://github.com/wdqqdw/EmoCaliber.

English

Visual Emotion Comprehension (VEC) aims to infer sentiment polarities or emotion categories from affective cues embedded in images. In recent years, Multimodal Large Language Models (MLLMs) have established a popular paradigm in VEC, leveraging their generalizability to unify VEC tasks defined under diverse emotion taxonomies. While this paradigm achieves notable success, it typically formulates VEC as a deterministic task, requiring the model to output a single, definitive emotion label for each image. Such a formulation insufficiently accounts for the inherent subjectivity of emotion perception, overlooking alternative interpretations that may be equally plausible to different viewers. To address this limitation, we propose equipping MLLMs with capabilities to verbalize their confidence in emotion predictions. This additional signal provides users with an estimate of both the plausibility of alternative interpretations and the MLLMs' self-assessed competence, thereby enhancing reliability in practice. Building on this insight, we introduce a three-stage training framework that progressively endows with structured reasoning, teaches to verbalize confidence, and calibrates confidence expression, culminating in EmoCaliber, a confidence-aware MLLM for VEC. Through fair and comprehensive evaluations on the unified benchmark VECBench, EmoCaliber demonstrates overall superiority against existing methods in both emotion prediction and confidence estimation. These results validate the effectiveness of our approach and mark a feasible step toward more reliable VEC systems. Project page: https://github.com/wdqqdw/EmoCaliber.

EmoCaliber: Avançando a Compreensão Visual de Emoções Confiável por meio de Verbalização e Calibração de Confiança

EmoCaliber: Advancing Reliable Visual Emotion Comprehension via Confidence Verbalization and Calibration

Resumo

Support