ChatPaper.aiChatPaper

EmoCaliber: Vooruitgang in Betrouwbare Visuele Emotieherkenning via Vertrouwensverbalisatie en Kalibratie

EmoCaliber: Advancing Reliable Visual Emotion Comprehension via Confidence Verbalization and Calibration

December 17, 2025
Auteurs: Daiqing Wu, Dongbao Yang, Can Ma. Yu Zhou
cs.AI

Samenvatting

Visueel Emotiebegrip (VEC) heeft als doel sentimentpolariteiten of emotiecategorieën af te leiden uit affectieve signalen die in afbeeldingen zijn ingebed. De afgelopen jaren hebben Multimodale Grote Taalmodellen (MLLM's) een populair paradigma gevestigd in VEC, waarbij ze gebruikmaken van hun generaliseerbaarheid om VEC-taken te verenigen die zijn gedefinieerd onder diverse emotietaxonomieën. Hoewel dit paradigma opmerkelijke successen boekt, formuleert het VEC doorgaans als een deterministische taak, waarbij het model wordt verplicht om één definitief emotielabel per afbeelding te outputten. Een dergelijke formulering houdt onvoldoende rekening met de inherente subjectiviteit van emotieperceptie en negeert alternatieve interpretaties die voor verschillende kijkers even plausibel kunnen zijn. Om deze beperking aan te pakken, stellen we voor om MLLM's uit te rusten met de mogelijkheid om hun vertrouwen in emotievoorspellingen te verwoorden. Dit aanvullende signaal geeft gebruikers een schatting van zowel de plausibiliteit van alternatieve interpretaties als het zelfingeschatte competentieniveau van de MLLM's, waardoor de betrouwbaarheid in de praktijk wordt vergroot. Voortbordurend op dit inzicht introduceren we een drietraps trainingsraamwerk dat MLLM's progressief voorziet van gestructureerd redeneervermogen, leert om vertrouwen te verwoorden en de vertrouwensexpressie kalibreert. Dit resulteert in EmoCaliber, een bewust-betrouwbare MLLM voor VEC. Door eerlijke en uitgebreide evaluaties op de gestandaardiseerde benchmark VECBench toont EmoCaliber een algehele superioriteit ten opzichte van bestaande methoden, zowel in emotievoorspelling als in vertrouwensschatting. Deze resultaten valideren de effectiviteit van onze aanpak en markeren een haalbare stap naar betrouwbaardere VEC-systemen. Projectpagina: https://github.com/wdqqdw/EmoCaliber.
English
Visual Emotion Comprehension (VEC) aims to infer sentiment polarities or emotion categories from affective cues embedded in images. In recent years, Multimodal Large Language Models (MLLMs) have established a popular paradigm in VEC, leveraging their generalizability to unify VEC tasks defined under diverse emotion taxonomies. While this paradigm achieves notable success, it typically formulates VEC as a deterministic task, requiring the model to output a single, definitive emotion label for each image. Such a formulation insufficiently accounts for the inherent subjectivity of emotion perception, overlooking alternative interpretations that may be equally plausible to different viewers. To address this limitation, we propose equipping MLLMs with capabilities to verbalize their confidence in emotion predictions. This additional signal provides users with an estimate of both the plausibility of alternative interpretations and the MLLMs' self-assessed competence, thereby enhancing reliability in practice. Building on this insight, we introduce a three-stage training framework that progressively endows with structured reasoning, teaches to verbalize confidence, and calibrates confidence expression, culminating in EmoCaliber, a confidence-aware MLLM for VEC. Through fair and comprehensive evaluations on the unified benchmark VECBench, EmoCaliber demonstrates overall superiority against existing methods in both emotion prediction and confidence estimation. These results validate the effectiveness of our approach and mark a feasible step toward more reliable VEC systems. Project page: https://github.com/wdqqdw/EmoCaliber.
PDF01December 31, 2025