RaVL: Обнаружение и устранение ложных корреляций в Fei-Tuned моделях видео-языка

Аннотация

Модели видео-языка, донастроенные для конкретной задачи, часто улавливают ложные корреляции между характеристиками изображения и текстовыми атрибутами, что приводит к ухудшению производительности на этапе тестирования без обучения. Существующие подходы к устранению ложных корреляций (i) в основном работают на уровне глобального изображения, а не прямо на мелких характеристиках изображения, и (ii) в основном предназначены для унимодальных настроек. В данной работе мы представляем RaVL, который рассматривает проблему устойчивости моделей видео-языка с точки зрения мелких деталей, обнаруживая и уменьшая ложные корреляции с использованием локальных характеристик изображения, а не на уровне глобального изображения. При данном донастройке модели видео-языка RaVL сначала выявляет ложные корреляции, используя подход к кластеризации на уровне региона для определения точных характеристик изображения, влияющих на ошибки классификации без обучения. Затем RaVL уменьшает выявленные ложные корреляции с помощью новой функции потерь, учитывающей регионы, что позволяет модели видео-языка сосредоточиться на значимых областях и игнорировать ложные связи во время донастройки. Мы оцениваем RaVL на 654 моделях видео-языка с различными архитектурами, областями данных и выявленными ложными корреляциями. Наши результаты показывают, что RaVL точно выявляет (улучшение на 191% по сравнению с ближайшим базовым уровнем) и уменьшает (улучшение на 8.2% в точности классификации изображения в худшей группе) ложные корреляции. Качественные оценки на общедоступных и медицинских моделях видео-языка подтверждают наши результаты.

English

Fine-tuned vision-language models (VLMs) often capture spurious correlations between image features and textual attributes, resulting in degraded zero-shot performance at test time. Existing approaches for addressing spurious correlations (i) primarily operate at the global image-level rather than intervening directly on fine-grained image features and (ii) are predominantly designed for unimodal settings. In this work, we present RaVL, which takes a fine-grained perspective on VLM robustness by discovering and mitigating spurious correlations using local image features rather than operating at the global image level. Given a fine-tuned VLM, RaVL first discovers spurious correlations by leveraging a region-level clustering approach to identify precise image features contributing to zero-shot classification errors. Then, RaVL mitigates the identified spurious correlation with a novel region-aware loss function that enables the VLM to focus on relevant regions and ignore spurious relationships during fine-tuning. We evaluate RaVL on 654 VLMs with various model architectures, data domains, and learned spurious correlations. Our results show that RaVL accurately discovers (191% improvement over the closest baseline) and mitigates (8.2% improvement on worst-group image classification accuracy) spurious correlations. Qualitative evaluations on general-domain and medical-domain VLMs confirm our findings.

RaVL: Обнаружение и устранение ложных корреляций в Fei-Tuned моделях видео-языка

RaVL: Discovering and Mitigating Spurious Correlations in Fine-Tuned Vision-Language Models

Аннотация

Support