ChatPaper.aiChatPaper

EmoCaliber: Fortschritt in der zuverlässigen visuellen Emotionserkennung durch Konfidenzverbalisierung und Kalibrierung

EmoCaliber: Advancing Reliable Visual Emotion Comprehension via Confidence Verbalization and Calibration

December 17, 2025
papers.authors: Daiqing Wu, Dongbao Yang, Can Ma. Yu Zhou
cs.AI

papers.abstract

Visuelle Emotionserkennung (VEC) zielt darauf ab, Stimmungspolaritäten oder Emotionskategorien aus affektiven Hinweisen in Bildern abzuleiten. In den letzten Jahren haben Multimodale Large Language Models (MLLMs) ein populäres Paradigma in der VEC etabliert, indem sie ihre Generalisierbarkeit nutzen, um VEC-Aufgaben zu vereinheitlichen, die unter verschiedenen Emotionstaxonomien definiert sind. Während dieses Paradigma bemerkenswerte Erfolge erzielt, formuliert es VEC typischerweise als eine deterministische Aufgabe, die vom Modell verlangt, für jedes Bild ein einziges, definitives Emotionslabel auszugeben. Eine solche Formulierung berücksichtigt die inhärente Subjektivität der Emotionswahrnehmung unzureichend und übersieht alternative Interpretationen, die für verschiedene Betrachter gleichermaßen plausibel sein könnten. Um diese Einschränkung zu adressieren, schlagen wir vor, MLLMs mit der Fähigkeit auszustatten, ihr Vertrauen in Emotionsvorhersagen zu verbalisieren. Dieses zusätzliche Signal gibt Nutzern eine Einschätzung sowohl der Plausibilität alternativer Interpretationen als auch der selbsteingeschätzten Kompetenz der MLLMs und erhöht so die Zuverlässigkeit in der Praxis. Aufbauend auf dieser Erkenntnis führen wir ein dreistufiges Trainingsframework ein, das MLLMs schrittweise strukturiertes Reasoning verleiht, sie lehrt, Vertrauen zu verbalisieren, und den Vertrauensausdruck kalibriert. Dies gipfelt in EmoCaliber, einem vertrauensbewussten MLLM für VEC. Durch faire und umfassende Evaluierungen auf dem einheitlichen Benchmark VECBench demonstriert EmoCaliber eine insgesamt überlegene Leistung gegenüber bestehenden Methoden sowohl in der Emotionsvorhersage als auch in der Vertrauensschätzung. Diese Ergebnisse validieren die Wirksamkeit unseres Ansatzes und markieren einen machbaren Schritt hin zu zuverlässigeren VEC-Systemen. Projektseite: https://github.com/wdqqdw/EmoCaliber.
English
Visual Emotion Comprehension (VEC) aims to infer sentiment polarities or emotion categories from affective cues embedded in images. In recent years, Multimodal Large Language Models (MLLMs) have established a popular paradigm in VEC, leveraging their generalizability to unify VEC tasks defined under diverse emotion taxonomies. While this paradigm achieves notable success, it typically formulates VEC as a deterministic task, requiring the model to output a single, definitive emotion label for each image. Such a formulation insufficiently accounts for the inherent subjectivity of emotion perception, overlooking alternative interpretations that may be equally plausible to different viewers. To address this limitation, we propose equipping MLLMs with capabilities to verbalize their confidence in emotion predictions. This additional signal provides users with an estimate of both the plausibility of alternative interpretations and the MLLMs' self-assessed competence, thereby enhancing reliability in practice. Building on this insight, we introduce a three-stage training framework that progressively endows with structured reasoning, teaches to verbalize confidence, and calibrates confidence expression, culminating in EmoCaliber, a confidence-aware MLLM for VEC. Through fair and comprehensive evaluations on the unified benchmark VECBench, EmoCaliber demonstrates overall superiority against existing methods in both emotion prediction and confidence estimation. These results validate the effectiveness of our approach and mark a feasible step toward more reliable VEC systems. Project page: https://github.com/wdqqdw/EmoCaliber.
PDF01December 20, 2025