Te vertrouwen of niet te vertrouwen: de voorspelling van je vision-language model
To Trust Or Not To Trust Your Vision-Language Model's Prediction
May 29, 2025
Auteurs: Hao Dong, Moru Liu, Jian Liang, Eleni Chatzi, Olga Fink
cs.AI
Samenvatting
Vision-Language Models (VLMs) hebben sterke capaciteiten getoond in het afstemmen van visuele en tekstuele modaliteiten, wat een breed scala aan toepassingen mogelijk maakt in multimodale begripsvorming en generatie. Hoewel ze uitblinken in zero-shot en transfer learning-scenario's, blijven VLMs gevoelig voor misclassificatie, wat vaak resulteert in zelfverzekerde maar incorrecte voorspellingen. Deze beperking vormt een aanzienlijk risico in veiligheidskritieke domeinen, waar foutieve voorspellingen tot ernstige gevolgen kunnen leiden. In dit werk introduceren we TrustVLM, een trainingsvrij framework dat ontworpen is om de cruciale uitdaging aan te pakken van het inschatten wanneer de voorspellingen van een VLM betrouwbaar zijn. Gemotiveerd door het waargenomen modaliteitsgat in VLMs en het inzicht dat bepaalde concepten duidelijker worden weergegeven in de beeldembeddingruimte, stellen we een nieuwe vertrouwensscore-functie voor die deze ruimte benut om de detectie van misclassificatie te verbeteren. We evalueren onze aanpak grondig op 17 diverse datasets, waarbij we 4 architecturen en 2 VLMs gebruiken, en demonstreren state-of-the-art prestaties, met verbeteringen tot 51,87% in AURC, 9,14% in AUROC en 32,42% in FPR95 vergeleken met bestaande baselines. Door de betrouwbaarheid van het model te verbeteren zonder hertraining te vereisen, opent TrustVLM de weg voor een veiligere inzet van VLMs in real-world toepassingen. De code zal beschikbaar zijn op https://github.com/EPFL-IMOS/TrustVLM.
English
Vision-Language Models (VLMs) have demonstrated strong capabilities in
aligning visual and textual modalities, enabling a wide range of applications
in multimodal understanding and generation. While they excel in zero-shot and
transfer learning scenarios, VLMs remain susceptible to misclassification,
often yielding confident yet incorrect predictions. This limitation poses a
significant risk in safety-critical domains, where erroneous predictions can
lead to severe consequences. In this work, we introduce TrustVLM, a
training-free framework designed to address the critical challenge of
estimating when VLM's predictions can be trusted. Motivated by the observed
modality gap in VLMs and the insight that certain concepts are more distinctly
represented in the image embedding space, we propose a novel confidence-scoring
function that leverages this space to improve misclassification detection. We
rigorously evaluate our approach across 17 diverse datasets, employing 4
architectures and 2 VLMs, and demonstrate state-of-the-art performance, with
improvements of up to 51.87% in AURC, 9.14% in AUROC, and 32.42% in FPR95
compared to existing baselines. By improving the reliability of the model
without requiring retraining, TrustVLM paves the way for safer deployment of
VLMs in real-world applications. The code will be available at
https://github.com/EPFL-IMOS/TrustVLM.