RaVL: Обнаружение и устранение ложных корреляций в Fei-Tuned моделях видео-языка
RaVL: Discovering and Mitigating Spurious Correlations in Fine-Tuned Vision-Language Models
November 6, 2024
Авторы: Maya Varma, Jean-Benoit Delbrouck, Zhihong Chen, Akshay Chaudhari, Curtis Langlotz
cs.AI
Аннотация
Модели видео-языка, донастроенные для конкретной задачи, часто улавливают ложные корреляции между характеристиками изображения и текстовыми атрибутами, что приводит к ухудшению производительности на этапе тестирования без обучения. Существующие подходы к устранению ложных корреляций (i) в основном работают на уровне глобального изображения, а не прямо на мелких характеристиках изображения, и (ii) в основном предназначены для унимодальных настроек. В данной работе мы представляем RaVL, который рассматривает проблему устойчивости моделей видео-языка с точки зрения мелких деталей, обнаруживая и уменьшая ложные корреляции с использованием локальных характеристик изображения, а не на уровне глобального изображения. При данном донастройке модели видео-языка RaVL сначала выявляет ложные корреляции, используя подход к кластеризации на уровне региона для определения точных характеристик изображения, влияющих на ошибки классификации без обучения. Затем RaVL уменьшает выявленные ложные корреляции с помощью новой функции потерь, учитывающей регионы, что позволяет модели видео-языка сосредоточиться на значимых областях и игнорировать ложные связи во время донастройки. Мы оцениваем RaVL на 654 моделях видео-языка с различными архитектурами, областями данных и выявленными ложными корреляциями. Наши результаты показывают, что RaVL точно выявляет (улучшение на 191% по сравнению с ближайшим базовым уровнем) и уменьшает (улучшение на 8.2% в точности классификации изображения в худшей группе) ложные корреляции. Качественные оценки на общедоступных и медицинских моделях видео-языка подтверждают наши результаты.
English
Fine-tuned vision-language models (VLMs) often capture spurious correlations
between image features and textual attributes, resulting in degraded zero-shot
performance at test time. Existing approaches for addressing spurious
correlations (i) primarily operate at the global image-level rather than
intervening directly on fine-grained image features and (ii) are predominantly
designed for unimodal settings. In this work, we present RaVL, which takes a
fine-grained perspective on VLM robustness by discovering and mitigating
spurious correlations using local image features rather than operating at the
global image level. Given a fine-tuned VLM, RaVL first discovers spurious
correlations by leveraging a region-level clustering approach to identify
precise image features contributing to zero-shot classification errors. Then,
RaVL mitigates the identified spurious correlation with a novel region-aware
loss function that enables the VLM to focus on relevant regions and ignore
spurious relationships during fine-tuning. We evaluate RaVL on 654 VLMs with
various model architectures, data domains, and learned spurious correlations.
Our results show that RaVL accurately discovers (191% improvement over the
closest baseline) and mitigates (8.2% improvement on worst-group image
classification accuracy) spurious correlations. Qualitative evaluations on
general-domain and medical-domain VLMs confirm our findings.Summary
AI-Generated Summary