Слова или зрение: Слепо ли доверяют модели "визуальный язык" тексту?
Words or Vision: Do Vision-Language Models Have Blind Faith in Text?
March 4, 2025
Авторы: Ailin Deng, Tri Cao, Zhirui Chen, Bryan Hooi
cs.AI
Аннотация
Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), демонстрируют высокую эффективность в интеграции визуальной и текстовой информации для задач, ориентированных на зрение, однако их способность справляться с несоответствиями между модальностями изучена недостаточно. Мы исследуем предпочтения VLMs в отношении модальностей при работе с визуальными данными и различными текстовыми входами в условиях, ориентированных на зрение. Вводя текстовые вариации в четыре задачи, связанные с обработкой изображений, и оценивая десять моделей VLMs, мы обнаруживаем явление «слепой веры в текст»: VLMs чрезмерно доверяют текстовым данным по сравнению с визуальными при возникновении несоответствий, что приводит к значительному снижению производительности при искажении текста и вызывает опасения с точки зрения безопасности. Мы анализируем факторы, влияющие на это предпочтение текста, включая инструктивные подсказки, размер языковой модели, релевантность текста, порядок токенов и взаимодействие между уверенностью в визуальных и текстовых данных. Хотя некоторые факторы, такие как увеличение размера языковой модели, незначительно снижают предпочтение текста, другие, например порядок токенов, могут усугублять его из-за позиционных предубеждений, унаследованных от языковых моделей. Для решения этой проблемы мы исследуем контролируемую тонкую настройку с текстовой аугментацией и демонстрируем её эффективность в снижении предпочтения текста. Кроме того, мы предлагаем теоретический анализ, который предполагает, что явление слепой веры в текст может быть связано с дисбалансом между чисто текстовыми и мультимодальными данными в процессе обучения. Наши результаты подчеркивают необходимость сбалансированного обучения и тщательного учета взаимодействия модальностей в VLMs для повышения их устойчивости и надежности при обработке несоответствий в мультимодальных данных.
English
Vision-Language Models (VLMs) excel in integrating visual and textual
information for vision-centric tasks, but their handling of inconsistencies
between modalities is underexplored. We investigate VLMs' modality preferences
when faced with visual data and varied textual inputs in vision-centered
settings. By introducing textual variations to four vision-centric tasks and
evaluating ten Vision-Language Models (VLMs), we discover a ``blind faith
in text'' phenomenon: VLMs disproportionately trust textual data over visual
data when inconsistencies arise, leading to significant performance drops under
corrupted text and raising safety concerns. We analyze factors influencing this
text bias, including instruction prompts, language model size, text relevance,
token order, and the interplay between visual and textual certainty. While
certain factors, such as scaling up the language model size, slightly mitigate
text bias, others like token order can exacerbate it due to positional biases
inherited from language models. To address this issue, we explore supervised
fine-tuning with text augmentation and demonstrate its effectiveness in
reducing text bias. Additionally, we provide a theoretical analysis suggesting
that the blind faith in text phenomenon may stem from an imbalance of pure text
and multi-modal data during training. Our findings highlight the need for
balanced training and careful consideration of modality interactions in VLMs to
enhance their robustness and reliability in handling multi-modal data
inconsistencies.Summary
AI-Generated Summary