ChatPaper.aiChatPaper

Parole o Visione: I Modelli Visione-Linguaggio Ripongono una Fede Cieca nel Testo?

Words or Vision: Do Vision-Language Models Have Blind Faith in Text?

March 4, 2025
Autori: Ailin Deng, Tri Cao, Zhirui Chen, Bryan Hooi
cs.AI

Abstract

I modelli visione-linguaggio (VLMs) eccellono nell'integrare informazioni visive e testuali per compiti centrati sulla visione, ma la loro gestione delle incongruenze tra modalità è poco esplorata. Investigiamo le preferenze modali dei VLMs quando si confrontano con dati visivi e input testuali variati in contesti focalizzati sulla visione. Introducendo variazioni testuali in quattro compiti centrati sulla visione e valutando dieci modelli visione-linguaggio (VLMs), scopriamo un fenomeno di "fede cieca nel testo": i VLMs tendono a fidarsi in modo sproporzionato dei dati testuali rispetto a quelli visivi quando sorgono incongruenze, portando a significativi cali di prestazioni con testi corrotti e sollevando preoccupazioni sulla sicurezza. Analizziamo i fattori che influenzano questo bias testuale, inclusi i prompt di istruzione, la dimensione del modello linguistico, la rilevanza del testo, l'ordine dei token e l'interazione tra certezza visiva e testuale. Mentre alcuni fattori, come l'aumento della dimensione del modello linguistico, mitigano leggermente il bias testuale, altri come l'ordine dei token possono esacerbarlo a causa di bias posizionali ereditati dai modelli linguistici. Per affrontare questo problema, esploriamo il fine-tuning supervisionato con l'augmentation testuale e ne dimostriamo l'efficacia nel ridurre il bias testuale. Inoltre, forniamo un'analisi teorica che suggerisce che il fenomeno della fede cieca nel testo potrebbe derivare da uno squilibrio tra dati puramente testuali e multi-modali durante l'addestramento. I nostri risultati evidenziano la necessità di un addestramento bilanciato e di una considerazione attenta delle interazioni modali nei VLMs per migliorare la loro robustezza e affidabilità nella gestione delle incongruenze nei dati multi-modali.
English
Vision-Language Models (VLMs) excel in integrating visual and textual information for vision-centric tasks, but their handling of inconsistencies between modalities is underexplored. We investigate VLMs' modality preferences when faced with visual data and varied textual inputs in vision-centered settings. By introducing textual variations to four vision-centric tasks and evaluating ten Vision-Language Models (VLMs), we discover a ``blind faith in text'' phenomenon: VLMs disproportionately trust textual data over visual data when inconsistencies arise, leading to significant performance drops under corrupted text and raising safety concerns. We analyze factors influencing this text bias, including instruction prompts, language model size, text relevance, token order, and the interplay between visual and textual certainty. While certain factors, such as scaling up the language model size, slightly mitigate text bias, others like token order can exacerbate it due to positional biases inherited from language models. To address this issue, we explore supervised fine-tuning with text augmentation and demonstrate its effectiveness in reducing text bias. Additionally, we provide a theoretical analysis suggesting that the blind faith in text phenomenon may stem from an imbalance of pure text and multi-modal data during training. Our findings highlight the need for balanced training and careful consideration of modality interactions in VLMs to enhance their robustness and reliability in handling multi-modal data inconsistencies.

Summary

AI-Generated Summary

PDF82March 11, 2025