ChatPaper.aiChatPaper

EmoCaliber: Avanzando en la Comprensión Visual de Emociones Fiable mediante Verbalización y Calibración de la Confianza

EmoCaliber: Advancing Reliable Visual Emotion Comprehension via Confidence Verbalization and Calibration

December 17, 2025
Autores: Daiqing Wu, Dongbao Yang, Can Ma. Yu Zhou
cs.AI

Resumen

La Comprensión Visual de Emociones (VEC, por sus siglas en inglés) tiene como objetivo inferir polaridades de sentimiento o categorías emocionales a partir de indicios afectivos incrustados en imágenes. En los últimos años, los Modelos de Lenguaje Grandes Multimodales (MLLMs) han establecido un paradigma popular en VEC, aprovechando su generalización para unificar las tareas de VEC definidas bajo diversas taxonomías emocionales. Si bien este paradigma logra un éxito notable, típicamente formula la VEC como una tarea determinista, requiriendo que el modelo genere una única etiqueta emocional definitiva para cada imagen. Dicha formulación no tiene suficientemente en cuenta la subjetividad inherente a la percepción emocional, pasando por alto interpretaciones alternativas que pueden ser igualmente plausibles para diferentes observadores. Para abordar esta limitación, proponemos dotar a los MLLMs de capacidades para verbalizar su confianza en las predicciones emocionales. Esta señal adicional proporciona a los usuarios una estimación tanto de la plausibilidad de interpretaciones alternativas como de la competencia auto-evaluada de los MLLMs, mejorando así la fiabilidad en la práctica. Partiendo de esta idea, introducimos un marco de entrenamiento de tres etapas que dota progresivamente al modelo de razonamiento estructurado, le enseña a verbalizar la confianza y calibra la expresión de la misma, culminando en EmoCaliber, un MLLM consciente de la confianza para VEC. Mediante evaluaciones justas y exhaustivas en el benchmark unificado VECBench, EmoCaliber demuestra una superioridad general frente a los métodos existentes tanto en predicción emocional como en estimación de confianza. Estos resultados validan la efectividad de nuestro enfoque y marcan un paso factible hacia sistemas VEC más fiables. Página del proyecto: https://github.com/wdqqdw/EmoCaliber.
English
Visual Emotion Comprehension (VEC) aims to infer sentiment polarities or emotion categories from affective cues embedded in images. In recent years, Multimodal Large Language Models (MLLMs) have established a popular paradigm in VEC, leveraging their generalizability to unify VEC tasks defined under diverse emotion taxonomies. While this paradigm achieves notable success, it typically formulates VEC as a deterministic task, requiring the model to output a single, definitive emotion label for each image. Such a formulation insufficiently accounts for the inherent subjectivity of emotion perception, overlooking alternative interpretations that may be equally plausible to different viewers. To address this limitation, we propose equipping MLLMs with capabilities to verbalize their confidence in emotion predictions. This additional signal provides users with an estimate of both the plausibility of alternative interpretations and the MLLMs' self-assessed competence, thereby enhancing reliability in practice. Building on this insight, we introduce a three-stage training framework that progressively endows with structured reasoning, teaches to verbalize confidence, and calibrates confidence expression, culminating in EmoCaliber, a confidence-aware MLLM for VEC. Through fair and comprehensive evaluations on the unified benchmark VECBench, EmoCaliber demonstrates overall superiority against existing methods in both emotion prediction and confidence estimation. These results validate the effectiveness of our approach and mark a feasible step toward more reliable VEC systems. Project page: https://github.com/wdqqdw/EmoCaliber.
PDF01December 20, 2025