ChatPaper.aiChatPaper

Palavras ou Visão: Os Modelos de Linguagem-Visão Têm Fé Cega no Texto?

Words or Vision: Do Vision-Language Models Have Blind Faith in Text?

March 4, 2025
Autores: Ailin Deng, Tri Cao, Zhirui Chen, Bryan Hooi
cs.AI

Resumo

Os Modelos de Visão-Linguagem (VLMs) se destacam na integração de informações visuais e textuais para tarefas centradas em visão, mas sua capacidade de lidar com inconsistências entre modalidades é pouco explorada. Investigamos as preferências de modalidade dos VLMs quando confrontados com dados visuais e entradas textuais variadas em contextos centrados em visão. Ao introduzir variações textuais em quatro tarefas centradas em visão e avaliar dez Modelos de Visão-Linguagem (VLMs), descobrimos um fenômeno de "fé cega no texto": os VLMs confiam desproporcionalmente nos dados textuais em vez dos dados visuais quando surgem inconsistências, levando a quedas significativas de desempenho sob texto corrompido e levantando preocupações de segurança. Analisamos fatores que influenciam esse viés em relação ao texto, incluindo prompts de instrução, tamanho do modelo de linguagem, relevância do texto, ordem dos tokens e a interação entre a certeza visual e textual. Embora certos fatores, como o aumento do tamanho do modelo de linguagem, mitiguem levemente o viés em relação ao texto, outros, como a ordem dos tokens, podem exacerbá-lo devido a vieses posicionais herdados dos modelos de linguagem. Para abordar esse problema, exploramos o ajuste fino supervisionado com aumento de texto e demonstramos sua eficácia na redução do viés em relação ao texto. Além disso, fornecemos uma análise teórica sugerindo que o fenômeno de fé cega no texto pode decorrer de um desequilíbrio entre dados puramente textuais e multimodais durante o treinamento. Nossas descobertas destacam a necessidade de um treinamento equilibrado e de uma consideração cuidadosa das interações entre modalidades nos VLMs para aumentar sua robustez e confiabilidade no tratamento de inconsistências em dados multimodais.
English
Vision-Language Models (VLMs) excel in integrating visual and textual information for vision-centric tasks, but their handling of inconsistencies between modalities is underexplored. We investigate VLMs' modality preferences when faced with visual data and varied textual inputs in vision-centered settings. By introducing textual variations to four vision-centric tasks and evaluating ten Vision-Language Models (VLMs), we discover a ``blind faith in text'' phenomenon: VLMs disproportionately trust textual data over visual data when inconsistencies arise, leading to significant performance drops under corrupted text and raising safety concerns. We analyze factors influencing this text bias, including instruction prompts, language model size, text relevance, token order, and the interplay between visual and textual certainty. While certain factors, such as scaling up the language model size, slightly mitigate text bias, others like token order can exacerbate it due to positional biases inherited from language models. To address this issue, we explore supervised fine-tuning with text augmentation and demonstrate its effectiveness in reducing text bias. Additionally, we provide a theoretical analysis suggesting that the blind faith in text phenomenon may stem from an imbalance of pure text and multi-modal data during training. Our findings highlight the need for balanced training and careful consideration of modality interactions in VLMs to enhance their robustness and reliability in handling multi-modal data inconsistencies.

Summary

AI-Generated Summary

PDF82March 11, 2025