Faire confiance ou non aux prédictions de votre modèle vision-langage
To Trust Or Not To Trust Your Vision-Language Model's Prediction
May 29, 2025
Auteurs: Hao Dong, Moru Liu, Jian Liang, Eleni Chatzi, Olga Fink
cs.AI
Résumé
Les modèles vision-langage (VLMs) ont démontré des capacités remarquables dans l'alignement des modalités visuelles et textuelles, permettant une large gamme d'applications dans la compréhension et la génération multimodales. Bien qu'ils excellent dans les scénarios d'apprentissage zero-shot et de transfert, les VLMs restent vulnérables aux erreurs de classification, produisant souvent des prédictions confiantes mais incorrectes. Cette limitation représente un risque significatif dans les domaines critiques pour la sécurité, où des prédictions erronées peuvent entraîner des conséquences graves. Dans ce travail, nous présentons TrustVLM, un cadre d'apprentissage sans entraînement conçu pour relever le défi crucial de l'estimation de la fiabilité des prédictions des VLMs. Motivés par l'écart de modalité observé dans les VLMs et l'idée que certains concepts sont plus distinctement représentés dans l'espace d'incorporation des images, nous proposons une nouvelle fonction de scoring de confiance qui exploite cet espace pour améliorer la détection des erreurs de classification. Nous évaluons rigoureusement notre approche sur 17 ensembles de données variés, en utilisant 4 architectures et 2 VLMs, et démontrons des performances de pointe, avec des améliorations allant jusqu'à 51,87 % en AURC, 9,14 % en AUROC et 32,42 % en FPR95 par rapport aux bases de référence existantes. En améliorant la fiabilité du modèle sans nécessiter de réentraînement, TrustVLM ouvre la voie à un déploiement plus sûr des VLMs dans des applications réelles. Le code sera disponible à l'adresse https://github.com/EPFL-IMOS/TrustVLM.
English
Vision-Language Models (VLMs) have demonstrated strong capabilities in
aligning visual and textual modalities, enabling a wide range of applications
in multimodal understanding and generation. While they excel in zero-shot and
transfer learning scenarios, VLMs remain susceptible to misclassification,
often yielding confident yet incorrect predictions. This limitation poses a
significant risk in safety-critical domains, where erroneous predictions can
lead to severe consequences. In this work, we introduce TrustVLM, a
training-free framework designed to address the critical challenge of
estimating when VLM's predictions can be trusted. Motivated by the observed
modality gap in VLMs and the insight that certain concepts are more distinctly
represented in the image embedding space, we propose a novel confidence-scoring
function that leverages this space to improve misclassification detection. We
rigorously evaluate our approach across 17 diverse datasets, employing 4
architectures and 2 VLMs, and demonstrate state-of-the-art performance, with
improvements of up to 51.87% in AURC, 9.14% in AUROC, and 32.42% in FPR95
compared to existing baselines. By improving the reliability of the model
without requiring retraining, TrustVLM paves the way for safer deployment of
VLMs in real-world applications. The code will be available at
https://github.com/EPFL-IMOS/TrustVLM.Summary
AI-Generated Summary