EmoCaliber : Progrès dans la compréhension fiable des émotions visuelles par verbalisation et étalonnage de la confiance
EmoCaliber: Advancing Reliable Visual Emotion Comprehension via Confidence Verbalization and Calibration
December 17, 2025
papers.authors: Daiqing Wu, Dongbao Yang, Can Ma. Yu Zhou
cs.AI
papers.abstract
La compréhension visuelle des émotions (VEC) vise à déduire les polarités sentimentales ou les catégories émotionnelles à partir des indices affectifs intégrés dans les images. Ces dernières années, les modèles de langage multimodaux de grande taille (MLLMs) ont établi un paradigme populaire en VEC, tirant parti de leur généralisabilité pour unifier les tâches de VEC définies selon diverses taxonomies émotionnelles. Bien que ce paradigme obtienne un succès notable, il formule généralement la VEC comme une tâche déterministe, exigeant que le modèle produise une étiquette émotionnelle unique et définitive pour chaque image. Une telle formulation ne rend pas suffisamment compte de la subjectivité inhérente à la perception des émotions, négligeant les interprétations alternatives qui pourraient être également plausibles pour différents observateurs. Pour remédier à cette limitation, nous proposons d'équiper les MLLMs de capacités à verbaliser leur confiance dans les prédictions émotionnelles. Ce signal supplémentaire fournit aux utilisateurs une estimation à la fois de la plausibilité des interprétations alternatives et de la compétence auto-évaluée des MLLMs, améliorant ainsi la fiabilité en pratique. Sur la base de cette idée, nous introduisons un cadre d'entraînement en trois étapes qui dote progressivement le modèle d'un raisonnement structuré, lui apprend à verbaliser sa confiance et calibre l'expression de cette confiance, aboutissant à EmoCaliber, un MLLM conscient de la confiance pour la VEC. Grâce à des évaluations équitables et complètes sur le benchmark unifié VECBench, EmoCaliber démontre une supériorité globale par rapport aux méthodes existantes à la fois en prédiction émotionnelle et en estimation de la confiance. Ces résultats valident l'efficacité de notre approche et marquent une étape réalisable vers des systèmes VEC plus fiables. Page du projet : https://github.com/wdqqdw/EmoCaliber.
English
Visual Emotion Comprehension (VEC) aims to infer sentiment polarities or emotion categories from affective cues embedded in images. In recent years, Multimodal Large Language Models (MLLMs) have established a popular paradigm in VEC, leveraging their generalizability to unify VEC tasks defined under diverse emotion taxonomies. While this paradigm achieves notable success, it typically formulates VEC as a deterministic task, requiring the model to output a single, definitive emotion label for each image. Such a formulation insufficiently accounts for the inherent subjectivity of emotion perception, overlooking alternative interpretations that may be equally plausible to different viewers. To address this limitation, we propose equipping MLLMs with capabilities to verbalize their confidence in emotion predictions. This additional signal provides users with an estimate of both the plausibility of alternative interpretations and the MLLMs' self-assessed competence, thereby enhancing reliability in practice. Building on this insight, we introduce a three-stage training framework that progressively endows with structured reasoning, teaches to verbalize confidence, and calibrates confidence expression, culminating in EmoCaliber, a confidence-aware MLLM for VEC. Through fair and comprehensive evaluations on the unified benchmark VECBench, EmoCaliber demonstrates overall superiority against existing methods in both emotion prediction and confidence estimation. These results validate the effectiveness of our approach and mark a feasible step toward more reliable VEC systems. Project page: https://github.com/wdqqdw/EmoCaliber.