EmoCaliber: Progressi nella Comprensione Affidabile delle Emozioni Visive tramite Verbalizzazione della Fiducia e Calibrazione
EmoCaliber: Advancing Reliable Visual Emotion Comprehension via Confidence Verbalization and Calibration
December 17, 2025
Autori: Daiqing Wu, Dongbao Yang, Can Ma. Yu Zhou
cs.AI
Abstract
La Comprensione Emotiva Visiva (VEC) mira a dedurre le polarità sentimentali o le categorie emotive a partire da indizi affettivi incorporati nelle immagini. Negli ultimi anni, i Modelli Linguistici Multimodali di Grande Dimensione (MLLM) hanno stabilito un paradigma popolare nella VEC, sfruttando la loro generalizzabilità per unificare i compiti di VEC definiti secondo diverse tassonomie emotive. Sebbene questo paradigma ottenga un successo notevole, tipicamente formula la VEC come un compito deterministico, richiedendo al modello di produrre un'etichetta emotiva singola e definitiva per ogni immagine. Una tale formulazione non tiene sufficientemente conto dell'inherente soggettività della percezione emotiva, trascurando interpretazioni alternative che potrebbero essere ugualmente plausibili per diversi osservatori. Per affrontare questa limitazione, proponiamo di dotare gli MLLM di capacità di verbalizzare la propria confidenza nelle previsioni emotive. Questo segnale aggiuntivo fornisce agli utenti una stima sia della plausibilità delle interpretazioni alternative che della competenza auto-valutata degli MLLM, migliorando così l'affidabilità nella pratica. Sulla base di questa intuizione, introduciamo un framework di addestramento in tre fasi che progressivamente fornisce ragionamento strutturato, insegna a verbalizzare la confidenza e calibra l'espressione della confidenza, culminando in EmoCaliber, un MLLM per VEC consapevole del proprio livello di confidenza. Attraverso valutazioni eque e complete sul benchmark unificato VECBench, EmoCaliber dimostra una superiorità generale rispetto ai metodi esistenti sia nella previsione emotiva che nella stima della confidenza. Questi risultati convalidano l'efficacia del nostro approccio e segnano un passo fattibile verso sistemi VEC più affidabili. Pagina del progetto: https://github.com/wdqqdw/EmoCaliber.
English
Visual Emotion Comprehension (VEC) aims to infer sentiment polarities or emotion categories from affective cues embedded in images. In recent years, Multimodal Large Language Models (MLLMs) have established a popular paradigm in VEC, leveraging their generalizability to unify VEC tasks defined under diverse emotion taxonomies. While this paradigm achieves notable success, it typically formulates VEC as a deterministic task, requiring the model to output a single, definitive emotion label for each image. Such a formulation insufficiently accounts for the inherent subjectivity of emotion perception, overlooking alternative interpretations that may be equally plausible to different viewers. To address this limitation, we propose equipping MLLMs with capabilities to verbalize their confidence in emotion predictions. This additional signal provides users with an estimate of both the plausibility of alternative interpretations and the MLLMs' self-assessed competence, thereby enhancing reliability in practice. Building on this insight, we introduce a three-stage training framework that progressively endows with structured reasoning, teaches to verbalize confidence, and calibrates confidence expression, culminating in EmoCaliber, a confidence-aware MLLM for VEC. Through fair and comprehensive evaluations on the unified benchmark VECBench, EmoCaliber demonstrates overall superiority against existing methods in both emotion prediction and confidence estimation. These results validate the effectiveness of our approach and mark a feasible step toward more reliable VEC systems. Project page: https://github.com/wdqqdw/EmoCaliber.