Confiar ou Não Confiar na Previsão do Seu Modelo de Visão e Linguagem
To Trust Or Not To Trust Your Vision-Language Model's Prediction
May 29, 2025
Autores: Hao Dong, Moru Liu, Jian Liang, Eleni Chatzi, Olga Fink
cs.AI
Resumo
Modelos Visão-Linguagem (VLMs) têm demonstrado capacidades robustas em alinhar modalidades visuais e textuais, possibilitando uma ampla gama de aplicações em compreensão e geração multimodal. Embora se destaquem em cenários de aprendizado zero-shot e transferência, os VLMs permanecem suscetíveis a erros de classificação, frequentemente gerando previsões confiantes, porém incorretas. Essa limitação representa um risco significativo em domínios críticos para a segurança, onde previsões errôneas podem levar a consequências graves. Neste trabalho, apresentamos o TrustVLM, uma estrutura livre de treinamento projetada para abordar o desafio crítico de estimar quando as previsões de um VLM podem ser confiáveis. Motivados pela lacuna de modalidade observada em VLMs e pela percepção de que certos conceitos são mais distintamente representados no espaço de incorporação de imagens, propomos uma nova função de pontuação de confiança que aproveita esse espaço para melhorar a detecção de erros de classificação. Avaliamos rigorosamente nossa abordagem em 17 conjuntos de dados diversos, empregando 4 arquiteturas e 2 VLMs, e demonstramos desempenho de ponta, com melhorias de até 51,87% em AURC, 9,14% em AUROC e 32,42% em FPR95 em comparação com as linhas de base existentes. Ao melhorar a confiabilidade do modelo sem exigir retreinamento, o TrustVLM abre caminho para uma implantação mais segura de VLMs em aplicações do mundo real. O código estará disponível em https://github.com/EPFL-IMOS/TrustVLM.
English
Vision-Language Models (VLMs) have demonstrated strong capabilities in
aligning visual and textual modalities, enabling a wide range of applications
in multimodal understanding and generation. While they excel in zero-shot and
transfer learning scenarios, VLMs remain susceptible to misclassification,
often yielding confident yet incorrect predictions. This limitation poses a
significant risk in safety-critical domains, where erroneous predictions can
lead to severe consequences. In this work, we introduce TrustVLM, a
training-free framework designed to address the critical challenge of
estimating when VLM's predictions can be trusted. Motivated by the observed
modality gap in VLMs and the insight that certain concepts are more distinctly
represented in the image embedding space, we propose a novel confidence-scoring
function that leverages this space to improve misclassification detection. We
rigorously evaluate our approach across 17 diverse datasets, employing 4
architectures and 2 VLMs, and demonstrate state-of-the-art performance, with
improvements of up to 51.87% in AURC, 9.14% in AUROC, and 32.42% in FPR95
compared to existing baselines. By improving the reliability of the model
without requiring retraining, TrustVLM paves the way for safer deployment of
VLMs in real-world applications. The code will be available at
https://github.com/EPFL-IMOS/TrustVLM.