Faire confiance ou non aux prédictions de votre modèle vision-langage

papers.abstract

Les modèles vision-langage (VLMs) ont démontré des capacités remarquables dans l'alignement des modalités visuelles et textuelles, permettant une large gamme d'applications dans la compréhension et la génération multimodales. Bien qu'ils excellent dans les scénarios d'apprentissage zero-shot et de transfert, les VLMs restent vulnérables aux erreurs de classification, produisant souvent des prédictions confiantes mais incorrectes. Cette limitation représente un risque significatif dans les domaines critiques pour la sécurité, où des prédictions erronées peuvent entraîner des conséquences graves. Dans ce travail, nous présentons TrustVLM, un cadre d'apprentissage sans entraînement conçu pour relever le défi crucial de l'estimation de la fiabilité des prédictions des VLMs. Motivés par l'écart de modalité observé dans les VLMs et l'idée que certains concepts sont plus distinctement représentés dans l'espace d'incorporation des images, nous proposons une nouvelle fonction de scoring de confiance qui exploite cet espace pour améliorer la détection des erreurs de classification. Nous évaluons rigoureusement notre approche sur 17 ensembles de données variés, en utilisant 4 architectures et 2 VLMs, et démontrons des performances de pointe, avec des améliorations allant jusqu'à 51,87 % en AURC, 9,14 % en AUROC et 32,42 % en FPR95 par rapport aux bases de référence existantes. En améliorant la fiabilité du modèle sans nécessiter de réentraînement, TrustVLM ouvre la voie à un déploiement plus sûr des VLMs dans des applications réelles. Le code sera disponible à l'adresse https://github.com/EPFL-IMOS/TrustVLM.

English

Vision-Language Models (VLMs) have demonstrated strong capabilities in aligning visual and textual modalities, enabling a wide range of applications in multimodal understanding and generation. While they excel in zero-shot and transfer learning scenarios, VLMs remain susceptible to misclassification, often yielding confident yet incorrect predictions. This limitation poses a significant risk in safety-critical domains, where erroneous predictions can lead to severe consequences. In this work, we introduce TrustVLM, a training-free framework designed to address the critical challenge of estimating when VLM's predictions can be trusted. Motivated by the observed modality gap in VLMs and the insight that certain concepts are more distinctly represented in the image embedding space, we propose a novel confidence-scoring function that leverages this space to improve misclassification detection. We rigorously evaluate our approach across 17 diverse datasets, employing 4 architectures and 2 VLMs, and demonstrate state-of-the-art performance, with improvements of up to 51.87% in AURC, 9.14% in AUROC, and 32.42% in FPR95 compared to existing baselines. By improving the reliability of the model without requiring retraining, TrustVLM paves the way for safer deployment of VLMs in real-world applications. The code will be available at https://github.com/EPFL-IMOS/TrustVLM.

Faire confiance ou non aux prédictions de votre modèle vision-langage

To Trust Or Not To Trust Your Vision-Language Model's Prediction

papers.abstract

Support