Mots ou Vision : Les modèles vision-langage accordent-ils une confiance aveugle au texte ?
Words or Vision: Do Vision-Language Models Have Blind Faith in Text?
March 4, 2025
Auteurs: Ailin Deng, Tri Cao, Zhirui Chen, Bryan Hooi
cs.AI
Résumé
Les modèles vision-langage (VLMs) excellent dans l'intégration d'informations visuelles et textuelles pour des tâches centrées sur la vision, mais leur gestion des incohérences entre modalités reste peu explorée. Nous étudions les préférences modales des VLMs lorsqu'ils sont confrontés à des données visuelles et à des entrées textuelles variées dans des contextes centrés sur la vision. En introduisant des variations textuelles dans quatre tâches centrées sur la vision et en évaluant dix modèles vision-langage (VLMs), nous découvrons un phénomène de « foi aveugle dans le texte » : les VLMs accordent une confiance disproportionnée aux données textuelles par rapport aux données visuelles en cas d'incohérence, entraînant une baisse significative des performances avec des textes corrompus et soulevant des préoccupations de sécurité. Nous analysons les facteurs influençant ce biais textuel, notamment les instructions d'invite, la taille du modèle de langage, la pertinence du texte, l'ordre des tokens et l'interaction entre la certitude visuelle et textuelle. Bien que certains facteurs, comme l'augmentation de la taille du modèle de langage, atténuent légèrement le biais textuel, d'autres, comme l'ordre des tokens, peuvent l'exacerber en raison des biais positionnels hérités des modèles de langage. Pour résoudre ce problème, nous explorons un fine-tuning supervisé avec augmentation de texte et démontrons son efficacité à réduire le biais textuel. De plus, nous proposons une analyse théorique suggérant que le phénomène de foi aveugle dans le texte pourrait découler d'un déséquilibre entre les données textuelles pures et les données multimodales pendant l'entraînement. Nos résultats soulignent la nécessité d'un entraînement équilibré et d'une attention particulière aux interactions modales dans les VLMs pour améliorer leur robustesse et leur fiabilité face aux incohérences des données multimodales.
English
Vision-Language Models (VLMs) excel in integrating visual and textual
information for vision-centric tasks, but their handling of inconsistencies
between modalities is underexplored. We investigate VLMs' modality preferences
when faced with visual data and varied textual inputs in vision-centered
settings. By introducing textual variations to four vision-centric tasks and
evaluating ten Vision-Language Models (VLMs), we discover a ``blind faith
in text'' phenomenon: VLMs disproportionately trust textual data over visual
data when inconsistencies arise, leading to significant performance drops under
corrupted text and raising safety concerns. We analyze factors influencing this
text bias, including instruction prompts, language model size, text relevance,
token order, and the interplay between visual and textual certainty. While
certain factors, such as scaling up the language model size, slightly mitigate
text bias, others like token order can exacerbate it due to positional biases
inherited from language models. To address this issue, we explore supervised
fine-tuning with text augmentation and demonstrate its effectiveness in
reducing text bias. Additionally, we provide a theoretical analysis suggesting
that the blind faith in text phenomenon may stem from an imbalance of pure text
and multi-modal data during training. Our findings highlight the need for
balanced training and careful consideration of modality interactions in VLMs to
enhance their robustness and reliability in handling multi-modal data
inconsistencies.Summary
AI-Generated Summary