ChatPaper.aiChatPaper

RaVL: Descoberta e Mitigação de Correlações Espúrias em Modelos de Visão e Linguagem Ajustados Finamente

RaVL: Discovering and Mitigating Spurious Correlations in Fine-Tuned Vision-Language Models

November 6, 2024
Autores: Maya Varma, Jean-Benoit Delbrouck, Zhihong Chen, Akshay Chaudhari, Curtis Langlotz
cs.AI

Resumo

Os modelos de visão-linguagem ajustados (VLMs) frequentemente capturam correlações espúrias entre características da imagem e atributos textuais, resultando em desempenho de zero-shot degradado no momento do teste. Abordagens existentes para lidar com correlações espúrias (i) operam principalmente no nível global da imagem em vez de intervir diretamente em características da imagem detalhadas e (ii) são predominantemente projetadas para configurações unimodais. Neste trabalho, apresentamos RaVL, que adota uma perspectiva detalhada sobre a robustez do VLM, descobrindo e mitigando correlações espúrias usando características locais da imagem em vez de operar no nível global da imagem. Dado um VLM ajustado, RaVL primeiro descobre correlações espúrias, aproveitando uma abordagem de agrupamento em nível de região para identificar características precisas da imagem que contribuem para erros de classificação de zero-shot. Em seguida, RaVL mitiga a correlação espúria identificada com uma nova função de perda consciente da região que permite ao VLM focar em regiões relevantes e ignorar relacionamentos espúrios durante o ajuste fino. Avaliamos RaVL em 654 VLMs com várias arquiteturas de modelo, domínios de dados e correlações espúrias aprendidas. Nossos resultados mostram que RaVL descobre com precisão (melhoria de 191% em relação à linha de base mais próxima) e mitiga (melhoria de 8,2% na precisão de classificação de imagem do pior grupo) correlações espúrias. Avaliações qualitativas em VLMs de domínio geral e médico confirmam nossas descobertas.
English
Fine-tuned vision-language models (VLMs) often capture spurious correlations between image features and textual attributes, resulting in degraded zero-shot performance at test time. Existing approaches for addressing spurious correlations (i) primarily operate at the global image-level rather than intervening directly on fine-grained image features and (ii) are predominantly designed for unimodal settings. In this work, we present RaVL, which takes a fine-grained perspective on VLM robustness by discovering and mitigating spurious correlations using local image features rather than operating at the global image level. Given a fine-tuned VLM, RaVL first discovers spurious correlations by leveraging a region-level clustering approach to identify precise image features contributing to zero-shot classification errors. Then, RaVL mitigates the identified spurious correlation with a novel region-aware loss function that enables the VLM to focus on relevant regions and ignore spurious relationships during fine-tuning. We evaluate RaVL on 654 VLMs with various model architectures, data domains, and learned spurious correlations. Our results show that RaVL accurately discovers (191% improvement over the closest baseline) and mitigates (8.2% improvement on worst-group image classification accuracy) spurious correlations. Qualitative evaluations on general-domain and medical-domain VLMs confirm our findings.
PDF52November 14, 2024