¿Confiar o no confiar en la predicción de tu modelo de visión y lenguaje?
To Trust Or Not To Trust Your Vision-Language Model's Prediction
May 29, 2025
Autores: Hao Dong, Moru Liu, Jian Liang, Eleni Chatzi, Olga Fink
cs.AI
Resumen
Los Modelos de Visión-Lenguaje (VLMs, por sus siglas en inglés) han demostrado capacidades sólidas para alinear las modalidades visuales y textuales, lo que permite una amplia gama de aplicaciones en comprensión y generación multimodal. Aunque destacan en escenarios de aprendizaje zero-shot y transferencia, los VLMs siguen siendo susceptibles a errores de clasificación, a menudo generando predicciones confiadas pero incorrectas. Esta limitación representa un riesgo significativo en dominios críticos para la seguridad, donde predicciones erróneas pueden tener consecuencias graves. En este trabajo, presentamos TrustVLM, un marco de trabajo que no requiere entrenamiento y está diseñado para abordar el desafío crítico de estimar cuándo se pueden confiar en las predicciones de un VLM. Motivados por la brecha de modalidad observada en los VLMs y la idea de que ciertos conceptos están más claramente representados en el espacio de incrustaciones de imágenes, proponemos una novedosa función de puntuación de confianza que aprovecha este espacio para mejorar la detección de errores de clasificación. Evaluamos rigurosamente nuestro enfoque en 17 conjuntos de datos diversos, empleando 4 arquitecturas y 2 VLMs, y demostramos un rendimiento de vanguardia, con mejoras de hasta el 51.87% en AURC, el 9.14% en AUROC y el 32.42% en FPR95 en comparación con los baselines existentes. Al mejorar la confiabilidad del modelo sin requerir reentrenamiento, TrustVLM allana el camino para un despliegue más seguro de los VLMs en aplicaciones del mundo real. El código estará disponible en https://github.com/EPFL-IMOS/TrustVLM.
English
Vision-Language Models (VLMs) have demonstrated strong capabilities in
aligning visual and textual modalities, enabling a wide range of applications
in multimodal understanding and generation. While they excel in zero-shot and
transfer learning scenarios, VLMs remain susceptible to misclassification,
often yielding confident yet incorrect predictions. This limitation poses a
significant risk in safety-critical domains, where erroneous predictions can
lead to severe consequences. In this work, we introduce TrustVLM, a
training-free framework designed to address the critical challenge of
estimating when VLM's predictions can be trusted. Motivated by the observed
modality gap in VLMs and the insight that certain concepts are more distinctly
represented in the image embedding space, we propose a novel confidence-scoring
function that leverages this space to improve misclassification detection. We
rigorously evaluate our approach across 17 diverse datasets, employing 4
architectures and 2 VLMs, and demonstrate state-of-the-art performance, with
improvements of up to 51.87% in AURC, 9.14% in AUROC, and 32.42% in FPR95
compared to existing baselines. By improving the reliability of the model
without requiring retraining, TrustVLM paves the way for safer deployment of
VLMs in real-world applications. The code will be available at
https://github.com/EPFL-IMOS/TrustVLM.Summary
AI-Generated Summary