Vedere è Credere, ma Quanto? Un'Analisi Completa della Calibrazione Verbalizzata nei Modelli Visione-Linguaggio
Seeing is Believing, but How Much? A Comprehensive Analysis of Verbalized Calibration in Vision-Language Models
May 26, 2025
Autori: Weihao Xuan, Qingcheng Zeng, Heli Qi, Junjue Wang, Naoto Yokoya
cs.AI
Abstract
La quantificazione dell'incertezza è essenziale per valutare l'affidabilità e la fiducia nei moderni sistemi di intelligenza artificiale. Tra gli approcci esistenti, l'incertezza verbalizzata, in cui i modelli esprimono la propria confidenza attraverso il linguaggio naturale, è emersa come una soluzione leggera e interpretabile nei grandi modelli linguistici (LLM). Tuttavia, la sua efficacia nei modelli visione-linguaggio (VLM) rimane insufficientemente studiata. In questo lavoro, conduciamo una valutazione completa della confidenza verbalizzata nei VLM, abbracciando tre categorie di modelli, quattro domini di attività e tre scenari di valutazione. I nostri risultati mostrano che gli attuali VLM spesso presentano una notevole scorretta calibrazione in diverse attività e contesti. In particolare, i modelli di ragionamento visivo (cioè, pensare con le immagini) mostrano costantemente una migliore calibrazione, suggerendo che il ragionamento specifico per modalità è cruciale per una stima affidabile dell'incertezza. Per affrontare ulteriormente le sfide di calibrazione, introduciamo il Visual Confidence-Aware Prompting, una strategia di prompting in due fasi che migliora l'allineamento della confidenza in contesti multimodali. Nel complesso, il nostro studio evidenzia la scorretta calibrazione intrinseca nei VLM attraverso le modalità. Più in generale, i nostri risultati sottolineano l'importanza fondamentale dell'allineamento delle modalità e della fedeltà del modello nel progredire verso sistemi multimodali affidabili.
English
Uncertainty quantification is essential for assessing the reliability and
trustworthiness of modern AI systems. Among existing approaches, verbalized
uncertainty, where models express their confidence through natural language,
has emerged as a lightweight and interpretable solution in large language
models (LLMs). However, its effectiveness in vision-language models (VLMs)
remains insufficiently studied. In this work, we conduct a comprehensive
evaluation of verbalized confidence in VLMs, spanning three model categories,
four task domains, and three evaluation scenarios. Our results show that
current VLMs often display notable miscalibration across diverse tasks and
settings. Notably, visual reasoning models (i.e., thinking with images)
consistently exhibit better calibration, suggesting that modality-specific
reasoning is critical for reliable uncertainty estimation. To further address
calibration challenges, we introduce Visual Confidence-Aware Prompting, a
two-stage prompting strategy that improves confidence alignment in multimodal
settings. Overall, our study highlights the inherent miscalibration in VLMs
across modalities. More broadly, our findings underscore the fundamental
importance of modality alignment and model faithfulness in advancing reliable
multimodal systems.