Fidarsi o non fidarsi della previsione del proprio modello visione-linguaggio
To Trust Or Not To Trust Your Vision-Language Model's Prediction
May 29, 2025
Autori: Hao Dong, Moru Liu, Jian Liang, Eleni Chatzi, Olga Fink
cs.AI
Abstract
I modelli visione-linguaggio (VLMs) hanno dimostrato forti capacità nell'allineare le modalità visive e testuali, abilitando un'ampia gamma di applicazioni nella comprensione e generazione multimodale. Sebbene eccellano in scenari di apprendimento zero-shot e trasferito, i VLMs rimangono suscettibili a errori di classificazione, spesso producendo previsioni sicure ma errate. Questa limitazione rappresenta un rischio significativo in domini critici per la sicurezza, dove previsioni errate possono portare a gravi conseguenze. In questo lavoro, introduciamo TrustVLM, un framework senza necessità di addestramento progettato per affrontare la sfida cruciale di stimare quando le previsioni di un VLM possono essere considerate affidabili. Motivati dal gap modale osservato nei VLMs e dall'intuizione che certi concetti sono rappresentati in modo più distinto nello spazio di embedding delle immagini, proponiamo una nuova funzione di punteggio di confidenza che sfrutta questo spazio per migliorare il rilevamento degli errori di classificazione. Valutiamo rigorosamente il nostro approccio su 17 dataset diversi, impiegando 4 architetture e 2 VLMs, e dimostriamo prestazioni all'avanguardia, con miglioramenti fino al 51,87% in AURC, 9,14% in AUROC e 32,42% in FPR95 rispetto ai baseline esistenti. Migliorando l'affidabilità del modello senza richiedere riaddestramento, TrustVLM apre la strada a un deployment più sicuro dei VLMs in applicazioni reali. Il codice sarà disponibile all'indirizzo https://github.com/EPFL-IMOS/TrustVLM.
English
Vision-Language Models (VLMs) have demonstrated strong capabilities in
aligning visual and textual modalities, enabling a wide range of applications
in multimodal understanding and generation. While they excel in zero-shot and
transfer learning scenarios, VLMs remain susceptible to misclassification,
often yielding confident yet incorrect predictions. This limitation poses a
significant risk in safety-critical domains, where erroneous predictions can
lead to severe consequences. In this work, we introduce TrustVLM, a
training-free framework designed to address the critical challenge of
estimating when VLM's predictions can be trusted. Motivated by the observed
modality gap in VLMs and the insight that certain concepts are more distinctly
represented in the image embedding space, we propose a novel confidence-scoring
function that leverages this space to improve misclassification detection. We
rigorously evaluate our approach across 17 diverse datasets, employing 4
architectures and 2 VLMs, and demonstrate state-of-the-art performance, with
improvements of up to 51.87% in AURC, 9.14% in AUROC, and 32.42% in FPR95
compared to existing baselines. By improving the reliability of the model
without requiring retraining, TrustVLM paves the way for safer deployment of
VLMs in real-world applications. The code will be available at
https://github.com/EPFL-IMOS/TrustVLM.