RaVL: Descubriendo y Mitigando Correlaciones Espurias en Modelos de Visión-Lenguaje Ajustados Fino
RaVL: Discovering and Mitigating Spurious Correlations in Fine-Tuned Vision-Language Models
November 6, 2024
Autores: Maya Varma, Jean-Benoit Delbrouck, Zhihong Chen, Akshay Chaudhari, Curtis Langlotz
cs.AI
Resumen
Los modelos de visión-lenguaje ajustados (VLMs) a menudo capturan correlaciones espurias entre las características de la imagen y los atributos textuales, lo que resulta en un rendimiento de cero disparos degradado en el momento de la prueba. Los enfoques existentes para abordar las correlaciones espurias (i) operan principalmente a nivel de imagen global en lugar de intervenir directamente en las características de imagen detalladas y (ii) están diseñados predominantemente para entornos unimodales. En este trabajo, presentamos RaVL, que adopta una perspectiva detallada sobre la robustez de los VLM al descubrir y mitigar correlaciones espurias utilizando características de imagen locales en lugar de operar a nivel de imagen global. Dado un VLM ajustado, RaVL primero descubre correlaciones espurias aprovechando un enfoque de agrupamiento a nivel de región para identificar características de imagen precisas que contribuyen a los errores de clasificación de cero disparos. Luego, RaVL mitiga la correlación espuria identificada con una nueva función de pérdida consciente de la región que permite al VLM centrarse en regiones relevantes e ignorar relaciones espurias durante el ajuste fino. Evaluamos RaVL en 654 VLMs con diversas arquitecturas de modelos, dominios de datos y correlaciones espurias aprendidas. Nuestros resultados muestran que RaVL descubre con precisión (mejora del 191% sobre la línea base más cercana) y mitiga (mejora del 8.2% en la precisión de clasificación de imágenes del peor grupo) las correlaciones espurias. Las evaluaciones cualitativas en VLMs de dominio general y médico confirman nuestros hallazgos.
English
Fine-tuned vision-language models (VLMs) often capture spurious correlations
between image features and textual attributes, resulting in degraded zero-shot
performance at test time. Existing approaches for addressing spurious
correlations (i) primarily operate at the global image-level rather than
intervening directly on fine-grained image features and (ii) are predominantly
designed for unimodal settings. In this work, we present RaVL, which takes a
fine-grained perspective on VLM robustness by discovering and mitigating
spurious correlations using local image features rather than operating at the
global image level. Given a fine-tuned VLM, RaVL first discovers spurious
correlations by leveraging a region-level clustering approach to identify
precise image features contributing to zero-shot classification errors. Then,
RaVL mitigates the identified spurious correlation with a novel region-aware
loss function that enables the VLM to focus on relevant regions and ignore
spurious relationships during fine-tuning. We evaluate RaVL on 654 VLMs with
various model architectures, data domains, and learned spurious correlations.
Our results show that RaVL accurately discovers (191% improvement over the
closest baseline) and mitigates (8.2% improvement on worst-group image
classification accuracy) spurious correlations. Qualitative evaluations on
general-domain and medical-domain VLMs confirm our findings.Summary
AI-Generated Summary