ChatPaper.aiChatPaper

Woorden of Visie: Hebben Vision-Language Modellen Blind Vertrouwen in Tekst?

Words or Vision: Do Vision-Language Models Have Blind Faith in Text?

March 4, 2025
Auteurs: Ailin Deng, Tri Cao, Zhirui Chen, Bryan Hooi
cs.AI

Samenvatting

Vision-Language Models (VLMs) blinken uit in het integreren van visuele en tekstuele informatie voor visueel gerichte taken, maar hun omgang met inconsistenties tussen modaliteiten is onderbelicht. Wij onderzoeken de modaliteitsvoorkeuren van VLMs wanneer ze worden geconfronteerd met visuele data en gevarieerde tekstuele invoer in visueel gerichte contexten. Door tekstuele variaties te introduceren in vier visueel gerichte taken en tien Vision-Language Models (VLMs) te evalueren, ontdekken we een fenomeen van 'blind vertrouwen in tekst': VLMs vertrouwen onevenredig sterk op tekstuele data boven visuele data wanneer inconsistenties optreden, wat leidt tot aanzienlijke prestatieverminderingen bij gecorrumpeerde tekst en veiligheidszorgen oproept. We analyseren factoren die deze tekstbias beïnvloeden, waaronder instructieprompts, de grootte van het taalmodel, tekstrelevantie, tokenvolgorde en de wisselwerking tussen visuele en tekstuele zekerheid. Hoewel bepaalde factoren, zoals het opschalen van de grootte van het taalmodel, de tekstbias enigszins verminderen, kunnen andere, zoals tokenvolgorde, deze verergeren vanwege positionele biases die zijn overgenomen uit taalmodelen. Om dit probleem aan te pakken, onderzoeken we supervised fine-tuning met tekstaugmentatie en tonen we de effectiviteit ervan aan in het verminderen van tekstbias. Daarnaast bieden we een theoretische analyse die suggereert dat het fenomeen van blind vertrouwen in tekst mogelijk voortkomt uit een onbalans tussen pure tekst en multimodale data tijdens de training. Onze bevindingen benadrukken de noodzaak van gebalanceerde training en zorgvuldige overweging van modaliteitsinteracties in VLMs om hun robuustheid en betrouwbaarheid te verbeteren bij het omgaan met inconsistenties in multimodale data.
English
Vision-Language Models (VLMs) excel in integrating visual and textual information for vision-centric tasks, but their handling of inconsistencies between modalities is underexplored. We investigate VLMs' modality preferences when faced with visual data and varied textual inputs in vision-centered settings. By introducing textual variations to four vision-centric tasks and evaluating ten Vision-Language Models (VLMs), we discover a ``blind faith in text'' phenomenon: VLMs disproportionately trust textual data over visual data when inconsistencies arise, leading to significant performance drops under corrupted text and raising safety concerns. We analyze factors influencing this text bias, including instruction prompts, language model size, text relevance, token order, and the interplay between visual and textual certainty. While certain factors, such as scaling up the language model size, slightly mitigate text bias, others like token order can exacerbate it due to positional biases inherited from language models. To address this issue, we explore supervised fine-tuning with text augmentation and demonstrate its effectiveness in reducing text bias. Additionally, we provide a theoretical analysis suggesting that the blind faith in text phenomenon may stem from an imbalance of pure text and multi-modal data during training. Our findings highlight the need for balanced training and careful consideration of modality interactions in VLMs to enhance their robustness and reliability in handling multi-modal data inconsistencies.

Summary

AI-Generated Summary

PDF82March 11, 2025